R语言与自然语言处理
文章平均质量分 95
R语言与自然语言处理,记录绝无仅有的R语言的一面,绝对全网首创!
悟乙己
心如花木,皆向阳而生!
展开
-
R语言·文本挖掘︱Rwordseg/rJava两包的安装(安到吐血)
每每以为攀得众山小,可、每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~——————————————————————————— R语言·文本挖掘︱Rwordseg/rJava两包的安装 笔者:文本挖掘中这两个包可谓是“老顽固”,做文本挖掘必须要过的关卡,今天倒腾了一天,桌面下了一堆东西,终于弄出来了。故此,赶紧记录下来,以后可用:关于这...原创 2016-11-25 23:24:56 · 40186 阅读 · 9 评论 -
R语言︱文本挖掘套餐包之——XML+SnowballC+tm包
R语言︱文本挖掘套餐包之——XML+tm+SnowballC包笔者寄语:文本挖掘、情感分析是目前非结构数据非常好用、有效的分析方式。先针对文本挖掘这个套餐包做个简单了解。一般来说一个完整的文本挖掘解决流程是:网页爬取数据——数据格式转化(分隔)——建立语料库——词频去噪——提取词干——创建文档-词频矩阵——后续分析(聚类、词云等)XML包可以实现原创 2016-04-04 11:38:40 · 10245 阅读 · 7 评论 -
R语言︱文本挖掘——jiabaR包与分词向量化的simhash算法(与word2vec简单比较)
《数据挖掘之道》点评:虽然我比较执着于Rwordseg,并不代表各位看管执着于我的执着,推荐结巴分词包,小巧玲珑,没有那么多幺蛾子,而且R版本和python版本都有,除了词性标注等分词包必备功能以外,jiebaR还加入了一些基础的文本分析算法,比如提取关键字(TFIDF)、分析文本相似性等等,真是老少咸宜。jiebaR是“结巴”中文分词(Python)的R语言版本,支持最大概率原创 2016-04-05 21:01:54 · 22521 阅读 · 1 评论 -
零基础词云工具︱实现文本分词+在线词云实现工具
通过网上资料的整理,我写了下面的流程,可以在不写程序的情况下快速的制作个性化词云。好吧,我们现在就开始吧。一、工具介绍我们词云制作工具是目前非常流行的tagxedo,tagxedo对于英文的分词做的很好(废话,英文单词之间有空格),但是对于中文分词做的不好,于是我们需要用到另外一个在线工具http://life.chacuo.net/convertexportword(百度找的,你转载 2016-04-22 17:31:13 · 9595 阅读 · 0 评论 -
R语言︱情感分析—基于监督算法R语言实现(二)
笔者寄语:本文大多内容来自未出版的《数据挖掘之道》的情感分析章节。本书中总结情感分析算法主要分为两种:词典型+监督算法型。监督算法型主要分别以下几个步骤:构建训练+测试集+特征提取(TFIDF算法)+K层交叉验证。一、TFIDF算法指标的简介监督式算法需要把非结构化的文本信息转化为结构化的一些指标,这个算法提供了以下的一些指标,在这简单叙述:TF = 某词在文章中出现的原创 2016-05-03 10:38:08 · 15327 阅读 · 32 评论 -
R语言︱情感分析—词典型代码实践(最基础)(一)
笔者寄语:词典型情感分析对词典要求极高,词典中的词语需要人工去选择,但是这样的选择会很有目标以及针对性。本文代码大多来源于《数据挖掘之道》的情感分析章节。本书中还提到了监督算法式的情感分析,可见博客: R语言︱情感分析—基于监督算法R语言实现笔记。可以与博客 R语言︱词典型情感分析文本操作技巧汇总(打标签、词典与数据匹配等)对着看。词典型情感分析大致有以下几个步原创 2016-05-04 12:29:27 · 34859 阅读 · 21 评论 -
重磅︱文本挖掘深度学习之word2vec的R语言实现
笔者寄语:2013年末,Google发布的 word2vec工具引起了一帮人的热捧,大家几乎都认为它是深度学习在自然语言领域的一项了不起的应用,各种欢呼“深度学习在自然语言领域开始发力 了”。基于word2vec现在还出现了doc2vec,word2vec相比传统,考虑单词上下文的语义;但是doc2vec不仅考虑了单词上下文的语义,还考虑了单词在段落中的顺序。———————————原创 2016-11-25 23:33:11 · 26443 阅读 · 2 评论 -
R语言︱LDA主题模型——最优主题数选取(topicmodels)+LDAvis可视化(lda+LDAvis)
笔者寄语:在自己学LDA主题模型时候,发现该模型有这么几个未解决的问题:1、LDA主题数量,多少个才是最优的。2、作出主题之后,主题-主题,主题与词语之间关联如何衡量。于是在查阅几位老师做的成果之后,将他们的成果撮合在一起。笔者发现R里面目前有两个包可以做LDA模型,是lda包+topicmodels包,两个包在使用的过程中,需要整理的数据都是不一样的,所以数据处理会是一个不省原创 2016-05-31 18:26:44 · 65304 阅读 · 31 评论 -
R语言︱文本挖掘——词云wordcloud2包
笔者看到微信公众号探数寻理中提到郎大为Chiffon老师的wordcloud2,于是尝鲜准备用一下。但是在下载的时候,遇见很多问题,安装问题困扰着。。。包中函数本身很好用,很简单,而且图形众多。————————————————————————————————————————————一、wordcloud2包的安装官方郎大为老师github博客链接:https原创 2016-06-09 11:15:08 · 49479 阅读 · 26 评论 -
自然语言处理︱简述四大类文本分析中的“词向量”(文本词特征提取)
笔者在看各种NLP的论文、文献、博客之中发现在应用过程中,有种类繁多的词向量的表达。笔者举例所看到的词向量有哪些。词向量类型:一个词一列向量,Hash算法,word2vec,LDA主题-词语矩阵;一个词一个值,bow算法,词权重;根据词向量组成句向量的方式:如果是一词一列向量,一般用简单相加(相加被证明是最科学)来求得;一个词一值的就是用词权重组合成向量的方原创 2016-08-09 15:32:15 · 55228 阅读 · 3 评论 -
NLP︱句子级、词语级以及句子-词语之间相似性(相关名称:文档特征、词特征、词权重)
关于相似性以及文档特征、词特征有太多种说法。弄得好乱,而且没有一个清晰逻辑与归类,包括一些经典书籍里面也分得概念模糊,所以擅自分一分。——————————————————————————————————————————————一、单词的表示方式1、词向量 词向量是现行较为多的方式,另外一篇博客已经写了四种词向量的表达原创 2016-08-10 18:21:07 · 40068 阅读 · 0 评论 -
NLP︱词向量经验总结(功能作用、高维可视化、R语言实现、大规模语料、延伸拓展)
R语言由于效率问题,实现自然语言处理的分析会受到一定的影响,如何提高效率以及提升词向量的精度是在当前软件环境下,比较需要解决的问题。 笔者认为还存在的问题有:1、如何在R语言环境下,大规模语料提高运行效率?2、如何提高词向量的精度,或者说如何衡量词向量优劣程度?3、词向量的功能性作用还有哪些值得开发?4、关于语义中的歧义问题如何消除?5、词向量从”词...原创 2016-08-17 12:12:52 · 19189 阅读 · 1 评论 -
NLP︱LDA主题模型的应用难题、使用心得及从多元统计角度剖析
将LDA跟多元统计分析结合起来看,那么LDA中的主题就像词主成分,其把主成分-样本之间的关系说清楚了。多元学的时候聚类分为Q型聚类、R型聚类以及主成分分析。R型聚类、主成分分析针对变量,Q型聚类针对样本。PCA主要将的是主成分-变量之间的关系,在文本中LDA也有同样的效果,将一撮词(变量)变成话题(主成分),同时通过画像主成分,可以知道人群喜欢什么样子的话题;Q型聚类代表样本之间的群落关系原创 2016-08-17 18:55:28 · 24152 阅读 · 1 评论 -
NLP+词法系列(一)︱中文分词技术小结、几大分词引擎的介绍与比较
笔者想说:觉得英文与中文分词有很大的区别,毕竟中文的表达方式跟英语有很大区别,而且语言组合形式丰富,如果把国外的内容强行搬过来用,不一样是最好的。所以这边看到有几家大牛都在中文分词以及NLP上越走越远。哈工大以及北大的张华平教授(NLPIR)的研究成果非常棒!但是商业应用的过程中存在的以下的问题:1、是否先利用开源的分词平台进行分词后,再自己写一些算法进行未登录词、歧义词的识别?2、或原创 2016-11-25 14:02:06 · 47960 阅读 · 2 评论 -
R+openNLP︱openNLP的六大可实现功能及其在R语言中的应用
openNLP是NLP中比较好的开源工具,R语言中有openNLP packages,但是呢,貌似对中文的支持并不好,笔者试了试,发现结果并不如意。但是也算认识了一番,就来介绍一下。————————————————————————————————————————一、openNLP简介维基百科:Apache OpenNLP库是一个基于机器学习的自然语言文本处理原创 2016-08-30 12:46:10 · 5361 阅读 · 1 评论 -
R语言实现︱局部敏感哈希算法(LSH)解决文本机械相似性的问题(一,基本原理)
私认为,文本的相似性可以分为两类:一类是机械相似性;一类是语义相似性。机械相似性代表着,两个文本内容上的相关程度,比如“你好吗”和“你好”的相似性,纯粹代表着内容上字符是否完全共现,应用场景在:文章去重;语义相似性代表着,两个文本语义上的相似程度,比如“苹果”和“公司”的相似性,本篇不做这一讨论,可参考笔者的另外一篇博客: NLP︱句子级、词语级以及句子-词语之间相似性(相关名称:原创 2016-09-06 18:54:35 · 8436 阅读 · 1 评论 -
R语言实现︱局部敏感哈希算法(LSH)解决文本机械相似性的问题(二,textreuse介绍)
上一篇(R语言实现︱局部敏感哈希算法(LSH)解决文本机械相似性的问题(一,基本原理))讲解了LSH的基本原理,笔者在想这么牛气冲天的方法在R语言中能不能实现得了呢?于是在网上搜索了一下,真的发现了一个叫textreuse的包可以实现这样的功能,而且该包较为完整,可以很好地满足要求。现在的版本是 0.1.3,最近的更新的时间为 2016-03-28。国内貌似比较少的用这个包来实现这个功原创 2016-09-07 12:14:13 · 4566 阅读 · 1 评论 -
重磅︱R+NLP:text2vec包——New 文本分析生态系统 No.1(一,简介)
词向量的表示主流的有两种方式,一种当然是耳熟能详的google的word2vec,还有一类就是GloVe。那么前面一类有三个开源的包,后面这一类我倒是看到得不多,恰好是在我关注了许久的一个包里面有,它就是text2vec啦。该包提供了一个强大API接口,能够很好地处理文本信息。 本包是由C++写的,流处理器可以让内存得到更好的利用,一些地方是用RcppParallel包进行并行化加乘,原创 2016-11-14 18:35:50 · 11462 阅读 · 2 评论 -
R+NLP︱text2vec包——BOW词袋模型做监督式情感标注案例(二,情感标注)
在之前的开篇提到了text2vec,笔者将其定义为R语言文本分析"No.1",她是一个文本分析的生态系统。笔者在学习之后发现开发者简直牛!基于分享精神,将自学笔记记录出来。开篇内容参考:重磅︱R+NLP:text2vec包——New 文本分析生态系统 No.1(一,简介) 文档可以以多种方式表达,单独词组、n-grams、特征hashing化的方法等。 一般来说文本分析的步骤有原创 2016-11-21 18:36:23 · 13125 阅读 · 5 评论 -
R+NLP︱text2vec包——四类文本挖掘相似性指标 RWMD、cosine、Jaccard 、Euclidean (三,相似距离)
在之前的开篇提到了text2vec,笔者将其定义为R语言文本分析"No.1",她是一个文本分析的生态系统。笔者在学习之后发现开发者简直牛!基于分享精神,将自学笔记记录出来。开篇内容参考:重磅︱R+NLP:text2vec包——New 文本分析生态系统 No.1(一,简介)R+NLP︱text2vec包——BOW词袋模型做监督式情感标注案例(二,情感标注)text2vec中包括了四大类距离:Cosi原创 2016-11-22 15:35:45 · 15987 阅读 · 1 评论