R数据分析篇
文章平均质量分 66
小力丸
数据分析,94年,摩羯座,软妹子
展开
-
如何在R中绘制树图(TreeMap)
树图(TreeMap) 通过矩形面积的大小,以及填充颜色的深浅,来显示节点的统计数据,通过嵌套层次来显示分组的层级的可视化图形。 for example: 某公司产品在世界六大洲的销售情况,矩形的大小表示人口的数量,颜色的深浅表示销售额的多少。 那么如何绘制树图呢? 首先绘制树图需要的包: install.packages(“treemap”) 树图函数: treemap(x,ind原创 2017-07-18 11:42:17 · 7714 阅读 · 1 评论 -
数据分析中非常实用的自编函数和代码模块整理
搞了接近四个周的模型开发工作,今天整理代码文件,评分卡模型基本告一段落了。那么在模型开发或者是我们日常的数据分析工作中,根据我们具体的业务需求,经常会重复地用到某些模块的功能。而这些模块的功能在R的packages里是没有的,这个时候,我们一般是通过自己写代码实现功能。通俗的说,在数据分析工作中,我们经常会通过调用自编函数来实现某些高级的功能。一般在结束某项数据分析的工作之后,对于使用频率比较高的模块功能,我会将实原创 2017-08-06 18:03:26 · 2256 阅读 · 4 评论 -
R中的线性回归分析
回归分析(regression analysis)回归分析是研究自变量与因变量之间关系形式的分析方法,它主要是通过建立因变量Y与影响它的自变量Xi(i=1,2,3...)之间的回归模型,来预测因变量Y的发展趋势。简单线性回归模型Y=a+b*X+eY——因变量X——自变量a——常数项,是回归直线在纵轴上的截距b——回归系数,是回归直线的斜率e——随机误差,即随机因原创 2017-07-17 23:20:19 · 3098 阅读 · 2 评论 -
R中五种常用的统计分析方法
1、分组分析根据分组字段,将分析对象划分为不同的部分,以进行对比分析各组之间差异性的一种分析方法。常用统计指标:计数 length求和 sum 平均值 mean标准差 var方差 sd分组统计函数aggregate(分组表达式,data=需要分组的数据框,function=统计函数)参数说明formula:分组表达式,格式:统计列~分组列1+分组列2+.原创 2017-07-17 22:59:56 · 24961 阅读 · 0 评论 -
R中如何用ifelse进行数据分组
9.数据分组数据分组,根据数据分析对象的特征,按照一定的数值指标,把数据分析对象划分为不同的区间部分来研究,以揭示内在的联系和规律性;在R中,我们常用ifelse函数来进行数据的分组,跟excel中的if函数是同一种用法。ifelse(condition,TRUE,FALSE)> data <- read.table('1.csv', sep='|', header=TRUE);原创 2017-07-12 00:13:36 · 16661 阅读 · 1 评论 -
R中数据的标准化0-1标准化
8. 数据标准化数据标准化,是将数据按比例缩放,使之落入到特定区间,一般我们使用0-1标准化;x=(x-min)/(max-min)>data <- read.csv('1.csv', fileEncoding='utf-8')> data class name score1 一班 朱志斌 1202 一班 朱凤 1223 一班 郑丽萍 14原创 2017-07-12 00:02:26 · 34590 阅读 · 0 评论 -
R中字段抽取、字段合并、字段匹配
7.1 字段抽取字段抽取,是根据已知列数据的开始和结束位置,抽取出新的列字段截取函数:substr(x,start,stop)tel <- '18922254812';#运营商band <- substr(tel, 1, 3)#地区area <- substr(tel, 4, 7)#号码段num <- substr(tel, 8, 11)tels <- read.csv原创 2017-07-11 23:43:11 · 6042 阅读 · 0 评论 -
R中重复值、缺失值及空格值的处理
6.1 R中重复值的处理#导入CSV数据data <- read.csv('1.csv', fileEncoding = "UTF-8", stringsAsFactors = FALSE);#对重复数据去重new_data #重复值处理函数:unique,用于清洗数据中的处理重复值。6.2 R中缺失值的处理#缺失数据清洗#读取数据data <- read.csv('1.原创 2017-07-11 23:23:06 · 15272 阅读 · 0 评论 -
R中的数据导入与导出
5.2 数据的导入data1 #注意:需要用UTF-8进行编码,并去掉因子,避免后续数据处理产生的问题。#导入csv文件data1 <- read.table("1.csv", header=TRUE, sep=",", fileEncoding="UTF-8", stringsAsFactors=FALSE);data2 <- read.csv("2.txt", header=TRUE原创 2017-07-11 23:14:19 · 1420 阅读 · 0 评论 -
R中的向量化运算
4.1 R中的向量化运算-seqseq(1, 10, by=1)seq(1, 10, by=0.1)seq(1.9, 10, by=0.1)#注意,不能这样子递减seq(10, 1, by=0.1)#注意,你可以这样子递减seq(10, 1, by=-0.1)#除了设置步长,还可以设置均分的步数seq(10, 1, length.out=10)seq(10, 1,原创 2017-07-11 22:18:54 · 676 阅读 · 0 评论 -
R中的自定义函数function
通过定义函数,实现了summary函数的加强版功能!更多自编函数,参见Erin的自编函数整理,直接调用帮助你的数据分析工作事半功倍哦!原创 2017-07-11 22:15:39 · 28072 阅读 · 2 评论 -
R中的程序结构(for,while,repeat)
2.1 程序结构-for循环1:5for(i in 1:5) print(i)ss <- seq(from=1, to=10, by=0.1)for(s in ss) { print(s)}df = data.frame( age=c(21, 22, 23), name=c('KEN', 'John', 'JIMI'), stringsAsFactors =原创 2017-07-11 22:07:15 · 1111 阅读 · 0 评论 -
R中的数据结构(Array,Factor,List,DataFrame)
1.1 R中的数据结构-Array#一维数组x1 <- 1:5;x2 <- c(1,3,5,7,9)x3 <- array(c(2, 4, 6, 8, 10))#多维数组xs <- array(1:24, dim=c(3,4,2))#访问x1[3]x2[c(1,3,5)]x3[3:5]xs[2, 2, 2]xs[2, 2, 1]#增加x1[6] <- 6x原创 2017-07-11 21:53:50 · 8653 阅读 · 0 评论 -
如何在R中绘制热力地图
一、首先绘画出地图map 地图(map) 按一定的比例运用符号、颜色、文字注记等描绘显示地球表面的自然地理、 行政区域、社会经济状况的图形。 地图绘制思路: ① 绘制需要展示的地图,获取地图对象,获取每个区域的名字以及顺序; ② 在每个区域的名字和顺序后面,加上我们需要展示的数据以及经纬度; ③ 根据数据的大小,设置每个区域展示的颜色的深浅,以区分每个区域; √ 对数据进行标准化原创 2017-07-18 12:00:40 · 9871 阅读 · 5 评论 -
懒癌必备-dplyr和data.table让你的数据分析事半功倍
最近Erin在做信用风险评级模型的开发,几千行的代码敲的我头晕眼花。作为一个懒癌晚期,并且追求高效率的数据er,怎么能受得了浪费时间去造轮子呢。接下来,我就为大家分享几个我在工作当中最常用来做数据分析用到的包,dplyr和data.table,我保证你get到这两个包后,就再也不想用R里面自带的基础包函数进行数据分析了!!原创 2017-08-06 12:32:40 · 3434 阅读 · 0 评论