![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
文章平均质量分 88
铁头乔
公众号:铁头乔
展开
-
中文新闻文本分类
http://www.cnblogs.com/CherishFX/p/4005336.html 下载搜狗新闻语料库 1. 下载ictclas4j 后面的附件中,我有放上ictclas4j的源码包ictclas4j.zip 2. 在Eclipse中新建项目并进行相关配置 首先把 ictclas4j解压缩,然后把 Data文件夹整个拷贝到 Eclipse项目的文原创 2016-12-30 13:47:51 · 4110 阅读 · 0 评论 -
FP-Growth序列频繁模式挖掘
1算法设计目标 输入不同的命令是用户使用Linux服务器的基本途径,通过长时间采集不同用户在使用服务器过程中所使用的命令序列,挖掘其中频繁出现的命令序列,可以帮助我们了解用户使用该服务器的基本规律。 此外,如果存在多台服务器,那么我们可以分析挖掘这些服务器中用户输入的命令序列,挖掘其中存在的频繁模式,可以了解用户使用这些服务器的根本目的。如果当这些服务器被同一个黑客攻击,或者这些服务器遭受了同原创 2016-12-30 18:20:08 · 4578 阅读 · 0 评论 -
python中文分词库结巴使用示例
结巴是开源库,中文分词,使用简单,可以添加用户字典 https://github.com/fxsjy/jieba使用示例from xml.etree import ElementTree import re import jieba import jieba.posseg as psegjieba.load_userdict("dict.txt")#读root root = ElementTree原创 2017-01-17 21:09:58 · 2684 阅读 · 0 评论