自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

素质云笔记

营销数据科学:因果推断,CDP,用户画像,短视频挖掘等

  • 博客(18)
  • 资源 (5)
  • 收藏
  • 关注

原创 R+openNLP︱openNLP的六大可实现功能及其在R语言中的应用

openNLP是NLP中比较好的开源工具,R语言中有openNLP packages,但是呢,貌似对中文的支持并不好,笔者试了试,发现结果并不如意。但是也算认识了一番,就来介绍一下。————————————————————————————————————————一、openNLP简介维基百科:Apache OpenNLP库是一个基于机器学习的自然语言文本处理

2016-08-30 12:46:10 5478 1

原创 一句python,一句R︱python中的字符串操作、中文乱码、NaN情况(split、zip...)

先学了R,最近刚刚上手python,所以想着将python和R结合起来互相对比来更好理解python。最好就是一句python,对应写一句R。pandas可谓如雷贯耳,数据处理神器。以下符号:=R=代表着在R中代码是怎么样的。速查笔记:string模块,还提供了很多方法,如 S.find(substring, [start [,end]]) #...

2016-08-24 17:03:54 4667

原创 一句Python,一句R︱数据的合并、分组、排序、翻转、集合

先学了R,最近刚刚上手python,所以想着将python和R结合起来互相对比来更好理解python。最好就是一句python,对应写一句R。python中的numpy模块相当于R中的matirx矩阵格式,化为矩阵,很多内容就有矩阵的属性,可以方便计算。以下符号:=R=代表着在R中代码是怎么样的。一、分组.groupbydf.groupby(df.year // 10 *10).max() #=

2016-08-23 17:53:28 4753

原创 一句Python,一句R︱pandas模块——高级版data.frame

先学了R,最近刚刚上手python,所以想着将python和R结合起来互相对比来更好理解python。最好就是一句python,对应写一句R。pandas可谓如雷贯耳,数据处理神器。以下符号:=R=代表着在R中代码是怎么样的。pandas 是基于 Numpy 构建的含有更高级数据结构和工具的数据分析包类似于 Numpy 的核心是 ndarray,pandas 也......

2016-08-23 17:29:39 16832 4

原创 python︱numpy、array——高级matrix(替换、重复、格式转换、切片)

先学了R,最近刚刚上手python,所以想着将python和R结合起来互相对比来更好理解python。最好就是一句python,对应写一句R。python中的numpy模块相当于R中的matirx矩阵格式,化为矩阵,很多内容就有矩阵的属性,可以方便计算。以下符号:=R=代表着在R中代码是怎么样的。    array模块定义了一种序列数据结构,看起来和list很相似,但是所有...

2016-08-23 15:46:21 65208 3

原创 一句python,一句R︱列表、元组、字典、数据类型、自定义模块导入(格式、去重)

pandas中有类似R中的read.table的功能,而且很像1、python的read_csv#数据导入df = pd.read_csv('./cpu.csv',header=0)#中文encoding = 'gbk'约等于R中的read.csv('./cpu.csv',header=T,encoding= UTF-8)2、python的to_csvto_cs

2016-08-23 11:46:08 9569

原创 NLP︱LDA主题模型的应用难题、使用心得及从多元统计角度剖析

将LDA跟多元统计分析结合起来看,那么LDA中的主题就像词主成分,其把主成分-样本之间的关系说清楚了。多元学的时候聚类分为Q型聚类、R型聚类以及主成分分析。R型聚类、主成分分析针对变量,Q型聚类针对样本。PCA主要将的是主成分-变量之间的关系,在文本中LDA也有同样的效果,将一撮词(变量)变成话题(主成分),同时通过画像主成分,可以知道人群喜欢什么样子的话题;Q型聚类代表样本之间的群落关系

2016-08-17 18:55:28 24367 1

原创 NLP︱词向量经验总结(功能作用、高维可视化、R语言实现、大规模语料、延伸拓展)

   R语言由于效率问题,实现自然语言处理的分析会受到一定的影响,如何提高效率以及提升词向量的精度是在当前软件环境下,比较需要解决的问题。 笔者认为还存在的问题有:1、如何在R语言环境下,大规模语料提高运行效率?2、如何提高词向量的精度,或者说如何衡量词向量优劣程度?3、词向量的功能性作用还有哪些值得开发?4、关于语义中的歧义问题如何消除?5、词向量从”词...

2016-08-17 12:12:52 19283 1

原创 python︱模块加载(pip安装)以及pycharm安装与报错解决方式

准备放下R开始学python,真是痛苦,因为找个IDE都好麻烦,调用起来都没Rsudio那么好用。这个IDE下载模块比较方面,非常快pycharm的下载与pandas安装:http://bbs.pinggu.org/thread-3633477-1-1.htmlpycharm官方教学视频:链接:http://pan.baidu.com/s/1sl3WfGL 密码:03ho

2016-08-14 17:30:15 61615 4

原创 NLP︱句子级、词语级以及句子-词语之间相似性(相关名称:文档特征、词特征、词权重)

关于相似性以及文档特征、词特征有太多种说法。弄得好乱,而且没有一个清晰逻辑与归类,包括一些经典书籍里面也分得概念模糊,所以擅自分一分。——————————————————————————————————————————————一、单词的表示方式1、词向量      词向量是现行较为多的方式,另外一篇博客已经写了四种词向量的表达

2016-08-10 18:21:07 40583

原创 自然语言处理︱简述四大类文本分析中的“词向量”(文本词特征提取)

笔者在看各种NLP的论文、文献、博客之中发现在应用过程中,有种类繁多的词向量的表达。笔者举例所看到的词向量有哪些。词向量类型:一个词一列向量,Hash算法,word2vec,LDA主题-词语矩阵;一个词一个值,bow算法,词权重;根据词向量组成句向量的方式:如果是一词一列向量,一般用简单相加(相加被证明是最科学)来求得;一个词一值的就是用词权重组合成向量的方

2016-08-09 15:32:15 55405 3

转载 极限学习机︱R语言快速深度学习进行回归预测

本文转载于张聪的博客。深度学习在过去几年,由于卷积神经网络的特征提取能力让这个算法又火了一下,其实在很多年以前早就有所出现,但是由于深度学习的计算复杂度问题,一直没有被广泛应用。一般的,卷积层的计算形式为:其中、x分别表示当前卷积层中第j个特征、前一层的第i个特征;k表示当前层的第j个特征与前一层的第i个特征之间的卷积核;M表示需要卷积的前一

2016-08-06 09:19:03 6676

转载 机器学习中应用到的各种距离介绍(附上Matlab代码)

转载于博客:各种距离在做分类时常常需要估算不同样本之间的相似性度量(SimilarityMeasurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。  本文的目的就是对常用的相似性度量作一个总结。本文目录:1.欧氏距离2.曼哈顿距离3. 切比雪夫

2016-08-03 10:48:53 24247 3

转载 LDA︱基于LDA的Topic Model变形+一些NLP开源项目

最近有想用LDA理论的变形来解决问题,调研中。。。。基于LDA的Topic Model变形基于LDA的Topic Model变形最近几年来,随着LDA的产生和发展,涌现出了一批搞Topic Model的牛人。我主要关注了下面这位大牛和他的学生:David M. BleiLDA的创始者,04年博士毕业。一篇关于Topic Model的博士论文充分体现其精深的数学概率功底;而其自己

2016-08-02 16:04:48 7837 2

原创 笔记︱范数正则化L0、L1、L2-岭回归&Lasso回归(稀疏与特征工程)

机器学习中的范数规则化之(一)L0、L1与L2范数博客的学习笔记,对一些要点进行摘录。规则化也有其他名称,比如统计学术中比较多的叫做增加惩罚项;还有现在比较多的正则化。一、正则化背景监督机器学习问题无非就是“minimizeyour error while regularizing your parameters”,也就是在规则化参数的同时最小化误差。最小化误差是为

2016-08-02 11:23:13 23248 7

原创 吐槽版︱MRO-Microsoft R Open快捷键+界面识别+功能设置

下载了之后,发现连运行(RUN键)在哪都不知道,蒙逼的在哪倒弄半天,都执行不了。。。问了别人,都说”ctrl+enter“,但是我的电脑执行不了,于是今天就狠狠的一个一个按钮的点一遍...(真是费劲...)于是有了以下的一些总结。中文界面的更改可以看: 新工具︱微软Microsoft Visual Studio的R语言模块下载试用Ing...(尝鲜)————————

2016-08-01 17:24:33 3236 2

转载 Microsoft+R:Microsoft R Open (MRO)安装和多核运作

本文转载于公众号大猫的R语言课堂,公众号作者使用这个MRO+Visual Studio 2015来运行。文中介绍了下载方法以及设置多线程。传统的RGui是单线程运行,此时microsoft收购之后实现了多线程,在高效上跨出了一大步。同时,笔者在使用的时候有一个非常大的困惑:里面的函数包是不是跟原来的一样?——从包的数量上来看,应该是一致的。但是不再是原来

2016-08-01 15:13:56 13613

转载 搜索引擎case︱从搜索序列文本看高端商务车︱统计之都

朱雪宁(北京大学光华管理学院)               王汉生(北京大学光华管理学院)摘要:本文对100万搜索引擎用户的13亿搜索序列文本进行探索分析,对高端车用户以及商学院人群做了描述对比,并针对用户搜索高端车品牌过程中的动态选择行为进行建模。首先,我们发现,在人群划分上,高端车用户和商学院用户表现出更加高端的属性,这主要表现在他们对生活、事业、学业上更卓越的追求。接下来,本文利用逻

2016-08-01 10:23:26 2800

Rstudio Server + Docker + tensorflowR的dockerfile文件

Rstudio Server + Docker + tensorflowR - 云端使用R语言与GPU深度学习

2018-09-28

数美科技李田:机器学习与在数美业务上的落地

数美科技李田:机器学习与在数美业务上的落地

2018-09-11

Prophet的案例数据

R的Prophet包的数据集

2017-02-26

VMware-player-12.0.0-part1

VMware-player-12.0.0-part1,一共两个部分。

2016-11-19

word2vec自编译函数(By Jian Li,2014-09-21)

R语言实现深度学习word2vec,word2vec包含两个模型CBOW以及Skp-gram模型,R语言实现的过程中需要配置一些内容,详情见包中附件readme。

2016-05-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除