2016年08月_悟乙己

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月

原创 R+openNLP︱openNLP的六大可实现功能及其在R语言中的应用

openNLP是NLP中比较好的开源工具，R语言中有openNLP packages，但是呢，貌似对中文的支持并不好，笔者试了试，发现结果并不如意。但是也算认识了一番，就来介绍一下。————————————————————————————————————————一、openNLP简介维基百科：Apache OpenNLP库是一个基于机器学习的自然语言文本处理

2016-08-30 12:46:10 5478 1

原创一句python，一句R︱python中的字符串操作、中文乱码、NaN情况（split、zip...）

先学了R，最近刚刚上手python,所以想着将python和R结合起来互相对比来更好理解python。最好就是一句python，对应写一句R。pandas可谓如雷贯耳，数据处理神器。以下符号：=R=代表着在R中代码是怎么样的。速查笔记：string模块，还提供了很多方法，如 S.find(substring, [start [,end]]) #...

2016-08-24 17:03:54 4667

原创一句Python，一句R︱数据的合并、分组、排序、翻转、集合

先学了R，最近刚刚上手python,所以想着将python和R结合起来互相对比来更好理解python。最好就是一句python，对应写一句R。python中的numpy模块相当于R中的matirx矩阵格式，化为矩阵，很多内容就有矩阵的属性，可以方便计算。以下符号：=R=代表着在R中代码是怎么样的。一、分组.groupbydf.groupby(df.year // 10 *10).max() #=

2016-08-23 17:53:28 4753

原创一句Python，一句R︱pandas模块——高级版data.frame

先学了R，最近刚刚上手python,所以想着将python和R结合起来互相对比来更好理解python。最好就是一句python，对应写一句R。pandas可谓如雷贯耳，数据处理神器。以下符号：=R=代表着在R中代码是怎么样的。pandas 是基于 Numpy 构建的含有更高级数据结构和工具的数据分析包类似于 Numpy 的核心是 ndarray，pandas 也......

2016-08-23 17:29:39 16832 4

原创 python︱numpy、array——高级matrix（替换、重复、格式转换、切片）

先学了R，最近刚刚上手python,所以想着将python和R结合起来互相对比来更好理解python。最好就是一句python，对应写一句R。python中的numpy模块相当于R中的matirx矩阵格式，化为矩阵，很多内容就有矩阵的属性，可以方便计算。以下符号：=R=代表着在R中代码是怎么样的。 array模块定义了一种序列数据结构，看起来和list很相似，但是所有...

2016-08-23 15:46:21 65208 3

原创一句python，一句R︱列表、元组、字典、数据类型、自定义模块导入（格式、去重）

pandas中有类似R中的read.table的功能，而且很像1、python的read_csv#数据导入df = pd.read_csv('./cpu.csv',header=0)#中文encoding = 'gbk'约等于R中的read.csv('./cpu.csv',header=T,encoding= UTF-8)2、python的to_csvto_cs

2016-08-23 11:46:08 9569

原创 NLP︱LDA主题模型的应用难题、使用心得及从多元统计角度剖析

将LDA跟多元统计分析结合起来看，那么LDA中的主题就像词主成分，其把主成分-样本之间的关系说清楚了。多元学的时候聚类分为Q型聚类、R型聚类以及主成分分析。R型聚类、主成分分析针对变量，Q型聚类针对样本。PCA主要将的是主成分-变量之间的关系，在文本中LDA也有同样的效果，将一撮词（变量）变成话题（主成分），同时通过画像主成分，可以知道人群喜欢什么样子的话题；Q型聚类代表样本之间的群落关系

2016-08-17 18:55:28 24367 1

原创 NLP︱词向量经验总结（功能作用、高维可视化、R语言实现、大规模语料、延伸拓展）

R语言由于效率问题，实现自然语言处理的分析会受到一定的影响，如何提高效率以及提升词向量的精度是在当前软件环境下，比较需要解决的问题。笔者认为还存在的问题有：1、如何在R语言环境下，大规模语料提高运行效率？2、如何提高词向量的精度，或者说如何衡量词向量优劣程度？3、词向量的功能性作用还有哪些值得开发？4、关于语义中的歧义问题如何消除？5、词向量从”词...

2016-08-17 12:12:52 19283 1

原创 python︱模块加载(pip安装)以及pycharm安装与报错解决方式

准备放下R开始学python,真是痛苦，因为找个IDE都好麻烦，调用起来都没Rsudio那么好用。这个IDE下载模块比较方面，非常快pycharm的下载与pandas安装：http://bbs.pinggu.org/thread-3633477-1-1.htmlpycharm官方教学视频：链接：http://pan.baidu.com/s/1sl3WfGL 密码：03ho

2016-08-14 17:30:15 61615 4

原创 NLP︱句子级、词语级以及句子-词语之间相似性（相关名称：文档特征、词特征、词权重）

关于相似性以及文档特征、词特征有太多种说法。弄得好乱，而且没有一个清晰逻辑与归类，包括一些经典书籍里面也分得概念模糊，所以擅自分一分。——————————————————————————————————————————————一、单词的表示方式1、词向量词向量是现行较为多的方式，另外一篇博客已经写了四种词向量的表达

2016-08-10 18:21:07 40583

原创自然语言处理︱简述四大类文本分析中的“词向量”（文本词特征提取）

笔者在看各种NLP的论文、文献、博客之中发现在应用过程中，有种类繁多的词向量的表达。笔者举例所看到的词向量有哪些。词向量类型：一个词一列向量，Hash算法，word2vec，LDA主题-词语矩阵；一个词一个值，bow算法，词权重；根据词向量组成句向量的方式：如果是一词一列向量，一般用简单相加（相加被证明是最科学）来求得；一个词一值的就是用词权重组合成向量的方

2016-08-09 15:32:15 55405 3

转载极限学习机︱R语言快速深度学习进行回归预测

本文转载于张聪的博客。深度学习在过去几年，由于卷积神经网络的特征提取能力让这个算法又火了一下，其实在很多年以前早就有所出现，但是由于深度学习的计算复杂度问题，一直没有被广泛应用。一般的，卷积层的计算形式为：其中、x分别表示当前卷积层中第j个特征、前一层的第i个特征；k表示当前层的第j个特征与前一层的第i个特征之间的卷积核；M表示需要卷积的前一

2016-08-06 09:19:03 6676

转载机器学习中应用到的各种距离介绍（附上Matlab代码）

转载于博客：各种距离在做分类时常常需要估算不同样本之间的相似性度量(SimilarityMeasurement)，这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究，甚至关系到分类的正确与否。　　本文的目的就是对常用的相似性度量作一个总结。本文目录：1.欧氏距离2.曼哈顿距离3. 切比雪夫

2016-08-03 10:48:53 24247 3

转载 LDA︱基于LDA的Topic Model变形+一些NLP开源项目

最近有想用LDA理论的变形来解决问题，调研中。。。。基于LDA的Topic Model变形基于LDA的Topic Model变形最近几年来，随着LDA的产生和发展，涌现出了一批搞Topic Model的牛人。我主要关注了下面这位大牛和他的学生：David M. BleiLDA的创始者，04年博士毕业。一篇关于Topic Model的博士论文充分体现其精深的数学概率功底；而其自己

2016-08-02 16:04:48 7837 2

原创笔记︱范数正则化L0、L1、L2-岭回归&Lasso回归（稀疏与特征工程）

机器学习中的范数规则化之（一）L0、L1与L2范数博客的学习笔记，对一些要点进行摘录。规则化也有其他名称，比如统计学术中比较多的叫做增加惩罚项；还有现在比较多的正则化。一、正则化背景监督机器学习问题无非就是“minimizeyour error while regularizing your parameters”，也就是在规则化参数的同时最小化误差。最小化误差是为

2016-08-02 11:23:13 23248 7

原创吐槽版︱MRO-Microsoft R Open快捷键+界面识别+功能设置

下载了之后，发现连运行（RUN键）在哪都不知道，蒙逼的在哪倒弄半天，都执行不了。。。问了别人，都说”ctrl+enter“，但是我的电脑执行不了，于是今天就狠狠的一个一个按钮的点一遍...（真是费劲...）于是有了以下的一些总结。中文界面的更改可以看：新工具︱微软Microsoft Visual Studio的R语言模块下载试用Ing...（尝鲜）————————

2016-08-01 17:24:33 3236 2

转载 Microsoft+R：Microsoft R Open （MRO）安装和多核运作

本文转载于公众号大猫的R语言课堂，公众号作者使用这个MRO+Visual Studio 2015来运行。文中介绍了下载方法以及设置多线程。传统的RGui是单线程运行，此时microsoft收购之后实现了多线程，在高效上跨出了一大步。同时，笔者在使用的时候有一个非常大的困惑：里面的函数包是不是跟原来的一样？——从包的数量上来看，应该是一致的。但是不再是原来

2016-08-01 15:13:56 13613

转载搜索引擎case︱从搜索序列文本看高端商务车︱统计之都

朱雪宁(北京大学光华管理学院) 王汉生(北京大学光华管理学院)摘要：本文对100万搜索引擎用户的13亿搜索序列文本进行探索分析，对高端车用户以及商学院人群做了描述对比，并针对用户搜索高端车品牌过程中的动态选择行为进行建模。首先，我们发现，在人群划分上，高端车用户和商学院用户表现出更加高端的属性，这主要表现在他们对生活、事业、学业上更卓越的追求。接下来，本文利用逻

2016-08-01 10:23:26 2800