大数据
文章平均质量分 62
Assassin__is__me
那些杀不死你的,终究会让你更加强大
展开
-
FP-Grouth算法学习小总结 By Assassin
学习FP-Grouth花了不少时间,但是觉得理解还是有一些偏差,这里分享一些好的资源吧!!!首先我个人认为学习FP-Grouth理论的比较好的网站是下面的 FP-Grouth理论学习传送门然后就是找到了一个python实现的FP-Grouth算法,代码用到了类,对于我这种水平的菜逼还是费了不少功夫的。。。下面将代码分享出来,具体的请见代码来源~ 代码来源资料库http://blog.csdn.原创 2017-03-05 09:17:52 · 1487 阅读 · 1 评论 -
CRF的简单应用--【中文分词】
之前简单研究了一下CRF的东西,但是原理还是知之甚少…但是大概想尝试一下它的实际作用,查案资料的过程中发现了所谓的中文分词的方法,尝试一下。 首先需要训练的语料,这个越大越好,但是为了处理方便只用了80M的语料啊,下载可以从这里 http://pan.baidu.com/s/1bnhXX6Z 当然这个是我们的一般的语料,想要成为CRF++的训练数据还需要进行加工一番。写一个小程序解决一下,然后原创 2018-02-08 23:28:52 · 2024 阅读 · 0 评论 -
结巴分词 小结
不得不用到分词,但是中科院和哈工大感觉不太好装,反倒是结巴已经再python的源中了所以选择这个作为分词工具。1.下载安装没啥吧直接python easy_install.py jieba即可,import如果没什么问题就说明安装成功了。2.简介结巴的使用方法也很是简单,具体如下 结巴分词支持3中分词模式: 1,全模式:把句子中的所有可以成词的词语都扫描出来, 2, 精确模式:试图将文本最精确原创 2018-02-05 09:59:00 · 2221 阅读 · 0 评论 -
词向量 简单应用
词向量是一个比较好的东西,具体是什么原理在此就不讲了,我也说不清楚…但是使用的时候还是比较直观的。用的是python中的gensim库,其中有word2vec库可以使用。词向量将词向量化,可以直观的算出两个词的“相关程度”,在大量的信息中抽取相关度较高的内容。直接上代码吧,代码很直观!#_*_ coding:utf-8 _*_from gensim.models import word2vecf原创 2018-02-05 19:13:41 · 1415 阅读 · 0 评论