2016年04月_悟乙己

原创 R语言︱逻辑运算

R软件包含两个逻辑值，TRUE和FALSE。在其他编程语言中也称为布尔值（Boolean values）。布尔向量就是充满着逻辑值的逻辑向量。那么有如何的应用呢？ 1、比较运算可以产生逻辑值 >、<、>=、<=、==、!= b=c(2,3,3,3,5,8,9,3,4,1)a=c(3,4,9)a==b#面对长度不相等的恒等比较，相当于...

2016-04-28 21:39:10 42221

原创 R语言︱集合运算——小而美法则

集合运算的一般规则如下： union(x,y) #求并集 intersect(x,y) #求交集 setdiff(x,y) #求属于x而不属于y的所有元素 setequal(x,y) #判断x与y是否相等 a %in% y #判断a是否为y中的元素 choose(n, k) #n个里面取k个的组合数

2016-04-28 21:08:09 18048

原创 R语言︱缺失值处理之多重插补——mice包

笔者寄语：缺失值是数据清洗过程中非常重要的问题（其他方法可见：R语言︱异常值检验、离群点分析、异常值处理），笔者在进行mice包的多重插补过程中遇到相当多的问题。大致的步骤简介如下：缺失数据集——MCMC估计插补成几个数据集——每个数据集进行插补建模（glm、lm模型）——将这些模型整合到一起（pool）——评价插补模型优劣（模型系数的t统计量）——输出完整数据集（co

2016-04-27 23:26:48 85939 47

原创 R语言︱词典型情感分析文本操作技巧汇总（打标签、词典与数据匹配等）

笔者寄语：情感分析中对文本处理的数据的小技巧要求比较高，笔者在学习时候会为一些小技巧感到头疼不已。

2016-04-27 22:56:29 24633 14

原创 R语言︱机器学习模型评价指标+（转）模型出错的四大原因及如何纠错

笔者寄语：机器学习中交叉验证的方式是主要的模型评价方法，交叉验证中用到了哪些指标呢？交叉验证将数据分为训练数据集、测试数据集，然后通过训练数据集进行训练，通过测试数据集进行测试，验证集进行验证。模型预测效果评价，通常用相对绝对误差、平均绝对误差、根均方差、相对平方根误差等指标来衡量。1、绝对误差与相对误差绝对误差（AbsoluteError）=原值-估计值相

2016-04-25 20:03:12 29846 4

原创 R + python︱数据规范化、归一化、Z-Score

笔者寄语：规范化主要是因为数据受着单位的影响较大，需要进行量纲化。大致有：最小-最大规范化、均值标准化、小数定标规范化1、最小-最大规范化也叫离差标准化，是对原始数据的线性变换，将数据映射到[0,1]之间，与功效系数法相同。#最小-最大规范化b1=(data[,1]-min(data[,1]))/(max(data[,1])-min(data[,1]))b2

2016-04-23 21:35:32 41086 1

原创 RFM模型+SOM聚类︱离群值筛选问题

笔者寄语：一般情况下离群值不应该直接删除，应该进行筛选，然后进行专门的离群值分析。笔者在这进行一下思考，在聚类基础之上的一种离群点检验。基于聚类的离群点检测的步骤如下：数据标准化——聚类——求每一类每一指标的均值点——每一类每一指标生成一个矩阵——计算欧式距离——画图判断。1、数据聚类利用RFM客户价值模型，进行SOM（自组织映射神经网络模型），可以参考笔者的博客。

2016-04-22 18:16:26 6705

转载零基础词云工具︱实现文本分词+在线词云实现工具

通过网上资料的整理，我写了下面的流程，可以在不写程序的情况下快速的制作个性化词云。好吧，我们现在就开始吧。一、工具介绍我们词云制作工具是目前非常流行的tagxedo，tagxedo对于英文的分词做的很好（废话，英文单词之间有空格），但是对于中文分词做的不好，于是我们需要用到另外一个在线工具http://life.chacuo.net/convertexportword（百度找的，你

2016-04-22 17:31:13 9679

原创 R语言︱H2o深度学习的一些R语言实践——H2o包

R语言H2o包的几个应用案例笔者寄语：受启发想了解H2o平台的一些R语言实现，网上已有一篇H2o的demo文件。笔者在这多贴一些案例，并且把自己实践的一些小例子贴出来。关于H2o平台长啥样，可以看H2o的官网，关于深度学习长啥样，可以看一些教程，比如ParallelR博客之中的解析。下面主要是贴几个案例，让大家看看。本文中介绍的

2016-04-22 12:39:04 20199 2

原创 R语言︱异常值检验、离群点分析、异常值处理

笔者寄语：本文是《R语言数据分析与挖掘实战》异常值处理一般分为以下几个步骤：异常值检测、异常值筛选、异常值处理。其中异常值检测的方法主要有：箱型图、简单统计量（比如观察极值）异常值处理方法主要有：删除法、插补法、替换法。提到异常值不得不说一个词：鲁棒性。就是不受异常值影响，一般是鲁棒性高的数据，比较优质。一、异常值检验异常值大概包括缺失值、离群值、重复值

2016-04-21 20:25:28 121566 7

原创 R语言︱R社区的简单解析（CRAN、CRAN Task View）

笔者寄语：菜鸟笔者一直觉得r CRAN离我们大家很远，在网上也很难找到这个社区的全解析教程，菜鸟我早上看到一篇文章提到了这个，于是抱着学渣学习的心态去看看这个社团的磅礴、威武。CRAN（The Comprehensive R Archive Network）：全面R档案网站1、R社区——主界面：https://www.r-project.org/主要功能：提供下载、最新

2016-04-20 10:24:23 11788

原创 R语言︱分布函数与概率密度+随机数产生

1、常见概率分布##正态分布pnorm(1.96) #P(x<=1.96)时的分布概率pnorm(1.96,0,1) #上同pnorm(1.96,lower.tail = F) #P(x>1.96)注意与pnorm的区别qnorm(0.975) #已知分布概率求x值dnorm(0)

2016-04-19 17:29:41 26267

原创 R语言︱函数使用技巧（循环、if族/for、switch、repeat、ifelse、stopifnot）

1、循环##循环foririsallzl=unique(iris$setosa)for (i in 1:2){ pp=iris[iris$setosa==allzl[i],] plot(pp$Sepal.Length~pp$Sepal.Width)}2、switch分支语句##switch分支语句switch(1,mean(1:10),rnorm(4)) #执行

2016-04-19 17:09:39 84809 3

原创 R语言︱画图

笔者寄语：不论画啥，你先plot准没错。1、plot函数##画图plot(x~y,xlab="",ylab="",main="",xlim=c(0,45),ylim=c(0,45),pch=18,col=2,cex=5)#xlab/ylab，xy标题#main，主标题#xlim,ylim，xy线段范围#pch，点的类型（圆形、棱形等）#col，线条的颜色#cex，点的

2016-04-19 11:18:22 6016

原创 R语言︱数据去重

笔者寄语：unique对于一个向量管用，对于matrix、data frame那些就不管用了。（谢益辉）查看重复的方式，有点像分类变量个数一样，unique() 或者 table() 都是很好的方式去检测。1、unique函数> rt 年月公司名利率1 2000 1 A a2 2000 1 A a3 200

2016-04-19 10:09:44 49337 2

原创 R语言︱基本函数、统计量、常用操作函数

1、一些简单的基本统计量#基本统计量sum/mean/sd/min #一些基本统计量which.min() #找出最小值的序号2、向量向量在循环语句中较为广泛#向量#向量在循环语句中较为广泛M=vector(length = 8);M #生成一个长为8的布尔向量M[1]="1";M #赋值之后就会定义为字符

2016-04-18 20:50:39 48805 1

原创 R语言︱构造新序列

1、数值构造函数rep与seq#数值构造rep与seqrep(1:4,each=2)#依次重复1:4两遍rep(1:4,2) #注意，重复1:4两遍seq(from=3,to=5,by=0.2)rep(seq(from=3,to=5,by=0.2),2) #混合使用2、字符构造pasteseq代表是ck与数值1 之间用啥记号，如：ck_1,ck*2collapse

2016-04-18 20:01:14 3264

原创 R语言︱排序问题

四、数据排序1、sort()，rank()，order()函数Sort排序（默认升序，decreasing=T时为降序）Order排序（默认升序，decreasing=T时为降序）在R中，和排序相关的函数主要有三个：sort()，rank()，or

2016-04-18 16:25:09 82752

原创 R语言︱list用法、批量读取、写出数据时的用法

列表是一种特别的对象集合，它的元素也由序号（下标）区分，但是各元素的类型可以是任意对象，不同元素不必是同一类型。元素本身允许是其它复杂数据类型，比如，列表的一个元素也允许是列表。例如：> rec <- list(name="李明", age=30, scores=c(85, 76, 90))> rec$name[1] "李明"　$age[1] 30　$scor...

2016-04-11 17:06:46 208004 16

转载 R语言︱非结构化数据处理神器——rlist包

本文作者：任坤，厦门大学王亚南经济研究院金融硕士生，研究兴趣为计算统计和金融量化交易，pipeR，learnR，rlist等项目的作者。近年来，非关系型数据逐渐获得了更广泛的关注和使用。下面分别列举了一个典型的关系型数据表和一个典型的非关系型数据集。关系型数据：一组学生的基本数据，包括姓名（Name）、性别（Gender）、年龄（Age）以及专业（Major）。

2016-04-11 17:02:50 9732

转载 R语言︱文本（字符串）处理与正则表达式

处理文本是每一种计算机语言都应该具备的功能，但不是每一种语言都侧重于处理文本。R语言是统计的语言，处理文本不是它的强项，perl语言这方面的功能比R不知要强多少倍。幸运的是R语言的可扩展能力很强，DNA/RNA/AA等生物序列现在已经可以使用R来处理。R语言处理文本的能力虽然不强，但适当用用还是可以大幅提高工作效率的，而且有些文本操作还不得不用。高效处理文本少不了正则表达式

2016-04-11 15:22:41 70056 4

转载 R语言︱大数据集下运行内存管理

在实操时出现以下的问题：Error: cannot allocate vector of size 2.9GB大神指导（http://bbs.pinggu.org/thread-3682816-1-1.html）cannot allocate vector就是典型的数据太大读不了方法有三一、升级硬件二、改进算法三、修改操作系统分配给R的内存上限, memory.

2016-04-10 18:48:51 25671 1

转载 R语言︱分类器的性能表现评价（混淆矩阵，准确率，召回率，F1,mAP、ROC曲线）

笔者寄语：分类器算法最后都会有一个预测精度，而预测精度都会写一个混淆矩阵，所有的训练数据都会落入这个矩阵中，而对角线上的数字代表了预测正确的数目，即True Positive+True Nagetive。同时可以相应算出TPR（真正率或称为灵敏度）和TNR（真负率或称为特异度）。我们主观上希望这两个指标越大越好，但可惜二者是一个此消彼涨的关系。除了分类器的训练参数，临界点的选择，也会大

2016-04-10 18:38:13 49158 2

转载 R语言︱用excel VBA把xlsx批量转化为csv格式

笔者寄语：批量读取目前看到有以下几种方法：xlsx包、RODBC包、批量转化成csv后读入。本章来自博客：http://www.cnblogs.com/weibaar/p/4506144.html在上面的尝试已经发现，xlsx本身就是这个复杂问题的最根本原因。与之相反，R对csv等文本格式支持的很好，而且有fread这个神器，要处理一定量级的数据，还是得把xlsx转化为csv格

2016-04-08 23:56:55 12027

原创 R语言︱文件读入、读出一些方法罗列（批量xlsx文件、数据库、文本txt、文件夹）

笔者寄语：批量读取目前看到有以下几种方法：xlsx包、RODBC包、批量转化成csv后读入。xlsx包首先尝试用R包解决。即xlsx包。xlsx包在加载时容易遇到问题。基本都是由于java环境未配置好，或者环境变量引用失败。因此要首先配置java环境，加载rJava包。百度了一下，网上已有很多解决方案。我主要是参考这个帖子，操作步骤为：1、安装最新版本

2016-04-08 23:44:09 70657 8

原创 R语言︱缺失值处理

1、缺失值由0代替dat[is.na(dat)] 跟逻辑向量的使用很有关 y <- x[!is.na(x)] #表示将向量x中的非NA元素赋给y； (x+1)[(!is.na(x)) & x>0] -> z #表示创建一个对象z，其中的元素由向量x+1中与x中的非缺失值和正数对应的向量组成x[is.na(x)]

2016-04-08 23:37:40 15658

原创 R语言︱数据分组统计函数族——apply族用法与心得

1、apply函数对一个数组按行或者按列进行计算，矩阵纵、横运算（sum,average等）> ma <- matrix(c(1:4, 1, 6:8), nrow = 2)> ma [,1] [,2] [,3] [,4][1,] 1 3 1 7[2,] 2 4 6 8> apply(ma, c(1,2), sum)

2016-04-07 15:55:40 43688 1

原创 R语言︱文本挖掘——jiabaR包与分词向量化的simhash算法（与word2vec简单比较）

《数据挖掘之道》点评：虽然我比较执着于Rwordseg，并不代表各位看管执着于我的执着，推荐结巴分词包，小巧玲珑，没有那么多幺蛾子，而且R版本和python版本都有，除了词性标注等分词包必备功能以外，jiebaR还加入了一些基础的文本分析算法，比如提取关键字（TFIDF）、分析文本相似性等等，真是老少咸宜。jiebaR是“结巴”中文分词（Python）的R语言版本，支持最大概率

2016-04-05 21:01:54 22911 1

原创 R语言︱文本挖掘之中文分词包——Rwordseg包(原理、功能、详解)

笔者寄语：与前面的RsowballC分词不同的地方在于这是一个中文的分词包，简单易懂，分词是一个非常重要的步骤，可以通过一些字典，进行特定分词。大致分析步骤如下：数据导入——选择分词字典——分词但是下载步骤比较繁琐，可参考之前的博客： R语言·文本挖掘︱Rwordseg/rJava两包的安装（安到吐血）一、数据导入、函数测试本次使用代码与案例

2016-04-04 13:38:52 45908 7

原创 R语言︱文本挖掘套餐包之——XML+SnowballC+tm包

R语言︱文本挖掘套餐包之——XML+tm+SnowballC包笔者寄语：文本挖掘、情感分析是目前非结构数据非常好用、有效的分析方式。先针对文本挖掘这个套餐包做个简单了解。一般来说一个完整的文本挖掘解决流程是：网页爬取数据——数据格式转化（分隔）——建立语料库——词频去噪——提取词干——创建文档-词频矩阵——后续分析（聚类、词云等）XML包可以实现

2016-04-04 11:38:40 10304 7

素质云笔记