素质云笔记/Recorder...

Research Area:计算机视觉舆情 + 知识图谱

自定义博客皮肤

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

R+openNLP︱openNLP的六大可实现功能及其在R语言中的应用

openNLP是NLP中比较好的开源工具,R语言中有openNLP packages,但是呢,貌似对中文的支持并不好,笔者试了试,发现结果并不如意。但是也算认识了一番,就来介绍一下。 ———————————————————————————————————————— 一、openNLP简介 ...

2016-08-30 12:46:10

阅读数 3861

评论数 1

一句python,一句R︱python中的字符串操作、中文乱码、NaN情况(split、zip...)

先学了R,最近刚刚上手python,所以想着将python和R结合起来互相对比来更好理解python。最好就是一句python,对应写一句R。 pandas可谓如雷贯耳,数据处理神器。 以下符号: =R= 代表着在R中代码是怎么样的。 速查笔记: string模块,还提供了很...

2016-08-24 17:03:54

阅读数 2768

评论数 0

一句Python,一句R︱数据的合并、分组、排序、翻转、集合

先学了R,最近刚刚上手python,所以想着将python和R结合起来互相对比来更好理解python。最好就是一句python,对应写一句R。python中的numpy模块相当于R中的matirx矩阵格式,化为矩阵,很多内容就有矩阵的属性,可以方便计算。以下符号:=R=代表着在R中代码是怎么样的。...

2016-08-23 17:53:28

阅读数 3721

评论数 0

一句Python,一句R︱pandas模块——高级版data.frame

先学了R,最近刚刚上手python,所以想着将python和R结合起来互相对比来更好理解python。最好就是一句python,对应写一句R。 pandas可谓如雷贯耳,数据处理神器。 以下符号: =R= 代表着在R中代码是怎么样的。 pandas 是基于 Numpy 构建的含有...

2016-08-23 17:29:39

阅读数 11032

评论数 4

python︱numpy、array——高级matrix(替换、重复、格式转换、切片)

先学了R,最近刚刚上手python,所以想着将python和R结合起来互相对比来更好理解python。最好就是一句python,对应写一句R。 python中的numpy模块相当于R中的matirx矩阵格式,化为矩阵,很多内容就有矩阵的属性,可以方便计算。 以下符号: =R= 代表着在R中...

2016-08-23 15:46:21

阅读数 41491

评论数 1

一句python,一句R︱列表、元组、字典、数据类型、自定义模块导入(格式、去重)

pandas中有类似R中的read.table的功能,而且很像 1、python的read_csv #数据导入 df = pd.read_csv('./cpu.csv',header=0) #中文encoding = 'gbk' 约等于R中的read.csv('./cpu.csv',heade...

2016-08-23 11:46:08

阅读数 5045

评论数 0

NLP︱LDA主题模型的应用难题、使用心得及从多元统计角度剖析

将LDA跟多元统计分析结合起来看,那么LDA中的主题就像词主成分,其把主成分-样本之间的关系说清楚了。多元学的时候聚类分为Q型聚类、R型聚类以及主成分分析。R型聚类、主成分分析针对变量,Q型聚类针对样本。 PCA主要将的是主成分-变量之间的关系,在文本中LDA也有同样的效果,将一撮词(变量)变成话...

2016-08-17 18:55:28

阅读数 15532

评论数 1

NLP︱词向量经验总结(功能作用、高维可视化、R语言实现、大规模语料、延伸拓展)

      R语言由于效率问题,实现自然语言处理的分析会受到一定的影响,如何提高效率以及提升词向量的精度是在当前软件环境下,比较需要解决的问题。   笔者认为还存在的问题有: 1、如何在R语言环境下,大规模语料提高运行效率? 2、如何提高词向量的精度,或者说如何衡量词向量优劣程度?...

2016-08-17 12:12:52

阅读数 13473

评论数 1

python︱模块加载(pip安装)以及pycharm安装与报错解决方式

准备放下R开始学python,真是痛苦,因为找个IDE都好麻烦,调用起来都没Rsudio那么好用。这个IDE下载模块比较方面,非常快 pycharm的下载与pandas安装:http://bbs.pinggu.org/thread-3633477-1-1.html pycharm官方教学视...

2016-08-14 17:30:15

阅读数 47297

评论数 3

NLP︱句子级、词语级以及句子-词语之间相似性(相关名称:文档特征、词特征、词权重)

关于相似性以及文档特征、词特征有太多种说法。弄得好乱,而且没有一个清晰逻辑与归类,包括一些经典书籍里面也分得概念模糊,所以擅自分一分。 —————————————————————————————————————————————— 一、单词的表示方式 1、词向量     ...

2016-08-10 18:21:07

阅读数 26513

评论数 0

自然语言处理︱简述四大类文本分析中的“词向量”(文本词特征提取)

笔者在看各种NLP的论文、文献、博客之中发现在应用过程中,有种类繁多的词向量的表达。笔者举例所看到的词向量有哪些。 词向量类型: 一个词一列向量,Hash算法,word2vec,LDA主题-词语矩阵; 一个词一个值,bow算法,词权重; 根据词向量组成句向量的方式: 如果是一词一列向量,一...

2016-08-09 15:32:15

阅读数 34257

评论数 2

极限学习机︱R语言快速深度学习进行回归预测

本文转载于张聪的博客。 深度学习在过去几年,由于卷积神经网络的特征提取能力让这个算法又火了一下,其实在很多年以前早就有所出现,但是由于深度学习的计算复杂度问题,一直没有被广泛应用。 一般的,卷积层的计算形式为: 其中、x分别表示当前卷积层中第j个特征、前一层的第i个特征;k表...

2016-08-06 09:19:03

阅读数 4434

评论数 0

机器学习中应用到的各种距离介绍(附上Matlab代码)

转载于博客:各种距离 在做分类时常常需要估算不同样本之间的相似性度量(SimilarityMeasurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。   本文的目的就是对常用的相似性度量作一个总结。 ...

2016-08-03 10:48:53

阅读数 13897

评论数 2

LDA︱基于LDA的Topic Model变形+一些NLP开源项目

最近有想用LDA理论的变形来解决问题,调研中。。。。 基于LDA的Topic Model变形 基于LDA的Topic Model变形最近几年来,随着LDA的产生和发展,涌现出了一批搞Topic Model的牛人。我主要关注了下面这位大牛和他的学生: David M. BleiLDA的创始者,0...

2016-08-02 16:04:48

阅读数 5269

评论数 2

笔记︱范数正则化L0、L1、L2-岭回归&Lasso回归(稀疏与特征工程)

机器学习中的范数规则化之(一)L0、L1与L2范数 博客的学习笔记,对一些要点进行摘录。规则化也有其他名称,比如统计学术中比较多的叫做增加惩罚项;还有现在比较多的正则化。 一、正则化背景 监督机器学习问题无非就是“minimizeyour error while regularizing...

2016-08-02 11:23:13

阅读数 15925

评论数 5

吐槽版︱MRO-Microsoft R Open快捷键+界面识别+功能设置

下载了之后,发现连运行(RUN键)在哪都不知道,蒙逼的在哪倒弄半天,都执行不了。。。问了别人,都说”ctrl+enter“,但是我的电脑执行不了,于是今天就狠狠的一个一个按钮的点一遍...(真是费劲...)于是有了以下的一些总结。 中文界面的更改可以看:  新工具︱微软Microsoft Vi...

2016-08-01 17:24:33

阅读数 2427

评论数 2

Microsoft+R:Microsoft R Open (MRO)安装和多核运作

本文转载于公众号大猫的R语言课堂,公众号作者使用这个MRO+Visual Studio 2015来运行。 文中介绍了下载方法以及设置多线程。 传统的RGui是单线程运行,此时microsoft收购之后实现了多线程,在高效上跨出了一大步。 同时,笔者在使用的时候有一个非常大的困惑: 里面的函...

2016-08-01 15:13:56

阅读数 9116

评论数 0

搜索引擎case︱从搜索序列文本看高端商务车︱统计之都

朱雪宁(北京大学光华管理学院)               王汉生(北京大学光华管理学院) 摘要:本文对100万搜索引擎用户的13亿搜索序列文本进行探索分析,对高端车用户以及商学院人群做了描述对比,并针对用户搜索高端车品牌过程中的动态选择行为进行建模。首先,我们发现,在人群划分上,高端车用户和商...

2016-08-01 10:23:26

阅读数 1650

评论数 0

提示
确定要删除当前文章?
取消 删除