R
文章平均质量分 66
风风雨雨中寻觅
平平淡淡,简简单单,取长补短,修炼身心
展开
-
方差分析
将要检验的对象称为因素或因子,因素或因子的不同表现称为水平,每个因子水平下得到的样本数据称为观测值。方差分析关注的是三个或更多总体的均值是否相等的问题基本假设:1.正态假设(W检验),因素每个水平的观测值样本都来自正态总体;2.方差齐性假设(多样本bartlett检验),各个总体分布的方差相同;3.独立假设,观测值之间相互独立bartlett.test(x,g,...)#x-数据向...原创 2019-04-17 10:04:55 · 2001 阅读 · 0 评论 -
R语言中的正则表达式最全解析
正则表达式即使用一个字符串来描述、匹配一系列某个语法规则的字符串。通过特定的字母、数字及特殊符号的灵活组合即可完成对任意字符串的匹配,从而达到提取相应文本信息的目的。R语言中有两种风格的正则表达式可实现,一种是在基本正则表达式基础上进行扩展,这和相应的R字符串处理函数相关,另一种就是Perl正则表达式,这种风格的正则在R中一般不常用。R默认的正则表达式风格包括基础文本处理函数和stringr包中的...原创 2018-11-11 18:04:59 · 39062 阅读 · 0 评论 -
Tencent AI Lab Embedding Corpus使用-提取目标词汇词向量+余弦相似度计算
Tencent AI Lab Embedding Corpus for Chinese Words and Phrases为超过800万个中文单词和词语(包括标点符号)提供200维矢量表示,这些向量捕捉了中文单词和词语的语义含义,可广泛应用于许多中下游的中文处理任务。Tencent_AILab_ChineseEmbedding.txt(开源下载文件)第一行显示嵌入总数和尺寸大小,下面每一行(第一列...原创 2018-11-01 20:19:10 · 6154 阅读 · 0 评论 -
R语言文件系统管理
计算机文件系统(使用文件和树形目录)是一种存储和管理计算机数据的方法1.list.dirs#查看当前目录的子目录,返回字符向量,full.names-是否提供相对文件路径,recursive-是否列出递归到目录的文件/目录(list.dirs针对的是目录)#当recursive=TRUE,输出value也包括路径本身list.dirs(path="C:/home",full.name...原创 2018-10-23 16:54:09 · 849 阅读 · 0 评论 -
R对象及简单函数介绍
1.类型定义数值型:numeric实数类。包括整数型(integers)和双精度型(double precision)字符型:character夹在单引号和双引号之间默认情况下字符型变量将转换为因子,若设置stringAsFactors=FALSE,将停止所有对字符型变量的转换复数型:complex缺省值:missing value 表示为not available NA...原创 2018-10-09 20:45:12 · 380 阅读 · 0 评论 -
R语言中的表达式函数
狭义表达式指表达式(expression)类对象,由expression函数产生;而广义的表达式既包含expression类,也包含R“语言”类(language)。expression和language是R语言中两种特殊数据类:getClass("expression") #expression由向量派生得到getClass("language") #虚拟类(程序控制关键词和name...原创 2018-10-15 11:53:12 · 8197 阅读 · 0 评论 -
V8-JavaScript引擎在R中的应用
传送:R语言中使用JavaScriptv8命名灵感源自20世纪50年代经典的“肌肉车”引擎;2008年9月2日v8与chrome同时宣布开源;2009年v8引入一个名为irregexp的正则表达式引擎;2009年内嵌v8的node.js发布了第一个版本,成为最受欢迎的JavaScript生态系统之一;2010年引入全新的优化JIT编译器crankshaft,极大提升了运行时性能;2011年垃圾...原创 2018-09-17 20:14:33 · 413 阅读 · 0 评论 -
假设检验-单样本泊松分布总体的发生率检验
传送:随机变量概率分布函数汇总-离散型分布+连续型分布 假设检验-KS检验 假设检验-W检验 假设检验-单样本t检验 假设检验-两服从正态分布的独立总体均值检验单样本泊松分布总体的发生率检验是对泊松分布的速率参数λ或两个速率参数之间的比率进行的精准测试poisson.test(x, T...原创 2018-09-17 12:08:10 · 5073 阅读 · 0 评论 -
假设检验-单样本比率检验(二项分布)
1.比率的二项分布检验-适用于样本量较小(n<30)的检验-精确binom.test(x,n,p=0.5,alternative="two.sided",conf.level=0.95)#n是样本总数,x是具有某种特征的样本数,p为原假设的概率值2.中位数符号检验,以中位数将数据分成两边(一边为正,一边为负),那么样本出现在两边的概率均为1/2,因此使用p=0.5的二项分布...原创 2018-09-16 23:22:29 · 11036 阅读 · 0 评论 -
假设检验-方差齐性检验
传送:随机变量概率分布函数汇总-离散型分布+连续型分布 假设检验-KS检验 假设检验-W检验 假设检验-单样本t检验 假设检验-两服从正态分布的独立总体均值检验一、单样本方差检验-需服从正态分布 chisq.var.test=function(x,var,mu=Inf,altern...原创 2018-09-16 22:35:07 · 14171 阅读 · 0 评论 -
R语言完成中国裁判文书网最新爬虫
2018-10-10脚本可用。估计没有人用R来写【中国裁判文书网】的爬虫程序,那我就吃螃蟹啦传送:Python与R协同完成【中国裁判文书网】文书内容爬取,该网站的爬虫分析过程参考我7月初写的博文反爬措施对比:1.JavaScript library更新;2.限制返回条数;3.模拟的浏览器报头信息必须有Cookie;4.文书ID加密,需要解密出明文才能拼接download url;5.翻页时...原创 2018-09-03 10:44:35 · 3238 阅读 · 9 评论 -
假设检验-两服从正态分布的独立总体均值检验
传送:随机变量概率分布函数汇总-离散型分布+连续型分布关注的结果变量为连续型组间比较(两组数据必须是独立的),并假设其呈现正态分布。首先判断是否为正态分布qqnorm(x1);qqline(x1)传送:假设检验-KS检验传送:假设检验-W检验传送:假设检验-单样本t检验假设条件:X,Y是两个独立的正态总体,,X1,X2...Xn是来自X的样本,Y1,Y2...Yn是来自Y的样本...原创 2018-08-29 10:35:08 · 15358 阅读 · 1 评论 -
假设检验-单样本t检验
传送:随机变量概率分布函数汇总-离散型分布+连续型分布检验样本需服从或近似服从正态分布,或满足中心极限定理的条件(柯西分布(即自由度=1的t分布)期望与方差均不存在,如从柯西分布中取的样本再多也不会符合平均值近似服从于标准正态分布的结论)1.当已知时,z.test计算检验统计量可根据独立同分布的中心极限定理得到,然后计算对应的P值#x为数值向量,sigma-标准差z.test=fu...原创 2018-08-28 20:56:14 · 2294 阅读 · 0 评论 -
R语言函数中的字符编码解析
一.RStudio编码设置Rstudio有时出现读取乱码,在电脑本地打开又是正常的。这是因为Rstudio的编码显示问题,可以通过软件设置来解决。但有时可能会因为Rstudio的版本不同,编码设置的路径也会有所不同常见中文格式编码主要有两种:GBK(GB2312)和UTF-8读取数据read.csv()或者read.table(),WINDOWS如果不指定文件格式编码,默认读取的文...原创 2018-11-18 20:29:54 · 6568 阅读 · 0 评论 -
RODBC连接MySQL使用总结-细节梳理
2018-11-18更新ODBC即开放数据库连接,open database connectivity,提供一组对数据库访问的标准API安装MySQL-odbc数据源,32位可直接安装(没有依赖项),64位需要先安装vc_redist.x64文件。安装文件列表如下:mysql-connector-odbc-5.2.7-win32mysql-connector-odbc-8.0.13...原创 2018-11-16 14:00:29 · 2745 阅读 · 0 评论 -
R语言中的并行计算汇总
上一篇博文:R语言中的代码运算性能提升R语言运行在CPU单核单线程上,使用并行计算原因是程序运行时间太长。大部分程序都可以进行并行化改造以提高运算性能1.lapply只需要一个参数(list\vector\array\matrix\data.frame),和一个以该参数为输入的函数,函数返回列表listlapply(1:3/3, round, digits=3);[[1]] ...原创 2019-02-26 21:02:02 · 6435 阅读 · 0 评论 -
k折交叉验证概述-附R语言实现
因需要拿出部分数据作为测试,故总有部分数据不能用于构建模型,一种更好选择是交叉验证(简称CV)。k折交叉验证是交叉验证方法中的一种(是进行模型比较的有效方法),将整体数据集分为k份(每份近似相等),其中k-1份作为训练数据,另外一份作为验证数据集,并计算预测误差平方和。用验证集来验证所得分类器或模型的错误率,循环以上实验k次,直到所有k份数据都被选择一遍为止。选择小一点的k容易高方差,大一点的k容...原创 2019-03-02 23:09:55 · 7896 阅读 · 2 评论 -
RFM模型浅析
RFM模型在客户管理中常被用来衡量客户价值和客户创新能力,主要考量三个指标:最近一次消费-Recency、消费频率-Frequency、消费金额-Monetary。根据以上三个维度对客户做细分,假定每个维度划分五个等级,得到客户R值(1-5),F值(1-5),M值(1-5)。那么客户就被分作125个细分群,就可根据客户交易行为差异针对不同群体做不同推荐。或进一步针对不同业务场景,对R、F、M赋予不...原创 2019-03-02 15:37:07 · 2797 阅读 · 0 评论 -
中文分词工具Rwordseg
Rwordseg是一个R环境下的中文分词工具,引用Ansj包(使得Ansj可用于人名识别、地名识别、组织机构名识别、多级词性标注、关键词提取、指纹提取等领域)支持行业词典、用户自定义词典,Ansj是开源的java中文分词工具,基于中科院ictclas中文分词算法,采用隐马尔科夫模型(HMM)。Rwordseg特点有三,一是分词准确,二是分词速度超快,三是可以导入自定义词库,也可导入搜狗输入法的细胞...原创 2019-02-20 20:00:32 · 867 阅读 · 0 评论 -
规则学习算法
规则学习(独立而治之)决策树会给任务带来一组特定的偏差,而规则学习可通过直接识别规则而避免偏差。规则学习通常应用于以名义特征为主或全部是名义特征的问题,规则学习擅长识别偶发事件,即使偶发事件只是因为特征之间非常特殊的相互作用才发生的决策树必须从上至下的应用,而规则是单独存在的事实。根据相同数据建立的模型,规则学习的结果往往比决策树的结果更加简洁、直观、容易理解。规则学习算法数据的利用基于先...原创 2019-02-17 17:35:54 · 1721 阅读 · 0 评论 -
R语言中的代码运算性能提升
时间与空间的权衡,为了让程序更快运行可能需要更多的内存空间,另一方面为节省内存或许需编写运行速度稍慢的代码。一个R会话中的所有对象都保存在内存中,即R的内存地址空间中,R语言已可以支持2^31字节以上的向量1.通过向量化的方式优化R代码2.使用字节码编译3.将R代码中最消耗CPU的部分用编译型语言编码,如C/C++4.将R代码用并行方式编写5.其他的一些方法1.循环很慢...原创 2019-02-14 23:18:11 · 949 阅读 · 0 评论 -
IV及WOE值详解-附R源码实现
1.IV值用途IV全称Information Value即信息价值或信息量。在用逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变量进行筛选。比如有200个候选自变量,通常情况下不会直接把200个变量直接放到模型中去进行拟合训练,而会用一些方法从200个自变量中挑选一些放进模型,形成入模变量列表。挑选入模变量过程需要考虑的因素有很多,比如变量预测能力、变量间相关性、变量简单性(容易生成使...原创 2019-01-16 20:51:22 · 3447 阅读 · 0 评论 -
R重写mahout中user-based协同过滤算法-注释篇
声明:本篇是基于张丹《R的极客思想》书本中的内容,但张丹在代码中并未添加过多注释,本人最近在研究推荐系统,并将张丹的代码做了一些改动和详细注释贴上来供大家学习交流#user-based 协同过滤推荐,3个近邻,2个推荐结果#1.构建数据模型FileDataModel<-function(file_name){ user=unique(file_name$buyer_member...原创 2019-01-15 20:36:37 · 789 阅读 · 2 评论 -
熵值法解析-附R代码
熵的概念源于热力学,是对系统状态不确定性的一种度量。在信息论中,信息是系统有序程度的一种度量,而熵是系统无序程度的一种度量,两者绝对值相等,但符号相反。根据此性质可利用评价中各方案的固有信息,通过熵值法得到各个指标信息熵,熵值越小-无序程度越低-指标权重越小熵是不确定性的度量(可用于判断一个事件的随机性+无序程度),如果用表示第j个信息的不确定性程度,则整个信息(设有n个)的不确定性度量可以...原创 2019-01-15 17:41:51 · 10904 阅读 · 7 评论 -
模型评估方法-K-S值-附R实现代码
2019-01-18修改,新增ks值的R语言实现风控模型中计算K-S值方法:K-S值主要验证风控模型对违约对象的区分能力,通常是在风控模型预测完全体样本的风控评分后,将全体样本按是否违约分为两部分,然后用K-S值检验两组样本的风控评分是否有显著差异将全体样本按风控评分从低到高排序均分成十组,分别计算每组的实际好样本数、实际坏样本数、累计好样本数、累计坏样本数、累计好样本数占比(总好样本...原创 2019-01-02 18:55:57 · 2646 阅读 · 1 评论 -
URL编码、解码
url标准中只允许一部分ASCII字符,如英文字母、数字字符、部分符号等。其他字符如-*汉字等,应被编码为%+两位的十六进制表示,任何单字节字符都可被编码(多字节是逐字节编码)。保留字符(! $ & ' ( ) * + , ; = : / ? @ # [ ])是否编码1.R语言实现#repeated-已经编码过的url是否被再次编码URLencode(URL,reserved=...原创 2019-01-03 19:52:20 · 256 阅读 · 0 评论 -
决策树算法-理清每个细节-附R+Python代码
2018-12-20更新,新增内容2019-01-14更新,对信息熵-信息增益章节中部分文字进行修订一.决策树概念在计算机科学中,树是一种重要数据结构,比如二叉查找树、红黑树等,通过引入“树”数据结构,可以很快缩小数据规模,实现高效查找。一般情况面对的样本通常具有很多特征,对事务的判断不能只从一个角度出发,决策树的思想是先从一个特征入手,通过这次分类使问题规模缩小,同时分类后的子集相比...原创 2018-12-19 20:53:20 · 5269 阅读 · 2 评论 -
假设检验-W检验
传送:随机变量概率分布函数汇总-离散型分布+连续型分布W检验全称为shapiro-wilk正态检验-属于非参数检验,用来检验数据是否符合正态分布,与线性回归方法相同,检验其与回归曲线的残差,该方法在样本量较小时使用(样本容量3-50)检验步骤:1.将数据按数值大小从新排列,使得X1≤X2...≤Xn;2.计算分母;3.查表得a值;4.计算W;5.若W值小于判断界限值Wa(查表),则拒绝...原创 2018-08-28 20:35:07 · 8543 阅读 · 0 评论 -
假设检验-KS检验
传送:随机变量概率分布函数汇总-离散型分布+连续型分布KS(Kolmogorov-Smirnow)是一种非参数的统计检验方法(是针对连续分布的检验)。这种检测常被用来应用于比较单样本是否符合某个已知分布(将样本数据的累计频数分布与特定理论分布相比较,如果两者间差距较小,则推断该样本取自某特定分布簇),双样本的KS检测比较两个数据集的累积分布(连续分布间的相似性)KS检验与卡方检验相比(都采...原创 2018-08-27 17:13:08 · 16014 阅读 · 1 评论 -
浙江法院公开网文书PDF爬取
#批量爬取下载文件-httr包实现异步加载+POST表单提交+cookie登入#异步加载网页大多通过返回json字符串形式来获取数据setwd("F:/...")url_yuan="http://www.zjsfgkw.cn"url_post="http://www.zjsfgkw.cn/document/JudgmentSearch"library("httr")library("...原创 2018-08-14 21:32:41 · 3659 阅读 · 0 评论 -
R数据对象处理函数(二)-类别+结构判别
mode()返回数据对象类型,mode(maindata)为list;str() 显示对象结构(即对象具体信息);class(object) 对象的类mode模式是R内存存储对象类型(基本数据类型numeric(integer\double)\complex\character\logical,递归对象:'list'或'function')是较旧的版本,class是基于面向对象的概念而来,返回...原创 2018-08-09 19:41:12 · 226 阅读 · 0 评论 -
R数据对象处理函数(一)
length(object) #显示对象中元素/成分个数,length("")=1dim(object) #显示某个对象维度,行数与列数names(object) #显示对象中各元素/成分名称 rm(object1,object2,...) #删除一个或者多个对象nchar(x) #计算字符串x的长度,对于非字符对象不能用该函数,nchar("")=0tian<-c("asd",...原创 2018-08-09 19:36:14 · 146 阅读 · 0 评论 -
R连接函数paste和paste0
paste()与paste0()不仅可以连接多个字符串,还可以将对象自动转换为字符串再相连,另外还能处理向量paste("fitbit", month, ".jpg", sep="")#这个函数的特殊地方在于默认的分隔符是空格,所以必须指定sep="",这样如果month=10时,就会生成fitbit10.jpg这样的字符串paste0函数,默认是sep=""(两个函数的唯一区别)...原创 2018-08-09 19:27:00 · 26905 阅读 · 0 评论 -
管道操作符
R语言处理数据或分析时,很多时候要写连续输入输出代码,传统书写方式会引入一大堆中介变量,或者使用函数嵌套进行一次性输出。以上两种方法虽然从结果来看可以达到预期效果,但是无论是代码效率还是内存占用都存在巨大劣势1.中介变量会使得内存开销成倍增长,特别是原始数据量非常大而内存有限,在处理过程中引入太多中介对象,不仅代码冗余内存也会迅速透支2.函数嵌套则避免了内存占用问题,但是嵌套太多层函数,会...原创 2018-08-09 12:26:51 · 575 阅读 · 0 评论 -
rword2vec开源算法包实现word2vec词向量生成
传送门:wordVectors开源算法包实现word2vec词向量生成R语言中rword2vec包和wordVectors包均能实现word2vec词向量生成,目前尚未研究两者之间的优劣(但从算法包的description来看,建议用rword2vec)rword2vec包是R与Google的word2vec接口,rword2vec将文本语料库作为输入,将单词向量作为输出。它首先根据训练文...原创 2018-07-27 11:42:23 · 2410 阅读 · 4 评论 -
基于JavaScript爬取法律文书案由信息
传送:R语言中使用JavaScript中国裁判文书网:http://wenshu.court.gov.cn/Assets/js/Lawyee.CPWSW.DictData.jslibrary("RCurl")library("js")library("dplyr")txt<-getURL('http://wenshu.court.gov.cn/Assets/js/Lawyee...原创 2018-08-16 10:43:46 · 556 阅读 · 0 评论 -
R语言中使用JavaScript
2018-09-17更新:完善一些语法细节js包是在R中使用JavaScript的工具,实现对几个流行的JavaScript库的绑定,用于编译、验证、重新格式化、优化和分析JavaScript代码。建立在V8包的基础上,可以调用这些库1.在R中验证JavaScript代码在语法上是否正确#js_typeof(),如果代码无效将引发SyntaxError,用于验证单个函数或对象cal...原创 2018-08-03 16:33:28 · 1839 阅读 · 1 评论 -
wordVectors开源算法包实现word2vec词向量生成
传送门:rword2vec开源算法包实现word2vec词向量生成#安装wordVectors包devtools::install_github(“bmschmidt/wordVectors”)该包使用李舰的word2vec代码训练word2vec模型,可以读取和写入二进制的word2vec格式(方便导入预先训练好的模型),并提供读取模型一部分(行或列)的工具,以便在内存有限的情况下探...原创 2018-07-26 20:55:49 · 1359 阅读 · 0 评论 -
xpdf用法、antiword用法、python-docx用法
PDF的解析: 1.OCR软件识别,如FineReader; 2.基于Java的SDK,如pdfbox,itext; 3.基于Python的SDK,如pdfMiner,pyPdf; 3.其他工具pdf2htmlex,xpdf本篇只介绍xpdf PDF的转换解析工具-xpdf,可以pdftohtml,pdftotext,pdfto...原创 2018-07-14 23:07:53 · 3563 阅读 · 4 评论 -
Python与R协同完成【中国裁判文书网】文书内容爬取
概述:目标网站:http://wenshu.court.gov.cn/核心:爬取每份文书的DocID请求URL:http://wenshu.court.gov.cn/List/ListContent请求类型:POST传参表格数据参数:Param,Index,Page,Order,Direction,vl5x,number,guid分析过程:1.guid也称为uuid,通用唯一...原创 2018-08-16 10:43:09 · 3522 阅读 · 13 评论