自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

bug在左,生活在右

半个程序员,半个算法工程师,半个数据分析师,一个俗人!

  • 博客(6)
  • 资源 (4)
  • 收藏
  • 关注

原创 word分词器、ansj分词器、IKanalyzer分词器、mmseg4j分词器、jcseg分词器对比

因项目需要,对目前比较流行的几个分词器进行了对比,ansj_seg是最美好的一个分词器,智能、强悍,对索引和最大颗粒分割都照顾得很到位,词库的树形读取也堪称经典;如果搜索只追求绝对准确度不考虑搜索结果最大化,jcseg效果还是很好的;如果只做站内搜索,不是海量互联网搜索引擎,可以考虑使用IKanalyzer,鼎鼎大名的知乎网用的也是IKanalyzer分词器;如果做推荐做分类可能会使用jcseg,毕

2016-06-29 18:07:59 8540

原创 R语言tm包中的TermDocumentMatrix函数生成中文词语矩阵含有\n

问题产生原因是新版本R的scan函数读取utf8格式数据有时会添加\n,解决办法是在执行TermDocumentMatrix前,调用Sys.setlocale(locale=”English”),之后再设定回去,Sys.setlocale(locale=”Chinese (Simplified)_People’s Republic of China.936”),local设置通过函数sessionI

2016-06-27 16:39:47 6782

转载 R语言进行中文分词和聚类

目标:对大约6w条微博进行分类

2016-06-23 17:05:24 5296 5

转载 R语言中进行文件夹及文件夹内文件操作范例

R语言中进行文件夹操作范例注释

2016-06-16 10:28:11 17138

转载 SparkR安装部署及数据分析实例

SparkR安装部署及数据分析实例

2016-06-14 15:22:30 1291 6

转载 R语言中的并行计算

众所周知,在大数据时代R语言有两个弱项,其中一个就是只能使用单线程计算。但是R在2.14版本之后,R就内置了parallel包,强化了R的并行计算能力。

2016-06-12 15:06:35 5118

PRML_translation 机器学习经典书籍中文版

机器学习经典书籍PRML中文版 高清PDF 本来想提供大家免费下载的 不知道CSDN怎么设置免费

2018-01-16

IBM InfoSphere BigInsights Version 3.0.0安装手册

IBM的BigInsights安装手册,英文版,对应版本为3.0.0

2015-03-03

商业智能流程

用Sql 2005创建商业智能中的数据挖掘流程

2012-09-06

jdk 1.5+tomcat 5.5软件包下载

jdk 1.5+tomcat 5.5软件包下载,满足用户找资源的迫切需要,使用起来更方便

2011-05-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除