文本挖掘
文章平均质量分 71
a_step_further
这个作者很懒,什么都没留下…
展开
-
hive UDF 提取文本中的地名
有时候,需要从文本字符串提取出地区名,为了在HIVE中使用方便,开发了一个HIVE UDF,核心在于使用了hanLP这样一个中文文本处理的神器。详细代码如下:import com.hankcs.hanlp.HanLP;import com.hankcs.hanlp.seg.Segment;import com.hankcs.hanlp.seg.common.Term;im原创 2016-02-24 10:05:43 · 2091 阅读 · 1 评论 -
hive UDF 提取文本中的国家名
要提取文本中的国家名,我的思路是:1. 先分词,提取出地区名2. 将国家名通过外部文件的形式读入HASHSET3. 对第1步中提取的地区名到2中的HASESET进行查询,如果有,则返回当UDF需要读取外部文件时,一种方法是在注册函数时用add file 先将文件上传,但这条路我尝试之后没有走通; 第二种方法就是把外部文件先上传到HDFS的一个路径上,再在UDF逻辑中直接读取HDFS上的文件,该方法尝试通过了。原创 2016-02-24 23:45:55 · 1917 阅读 · 0 评论 -
初试主题模型LDA-基于python的gensim包
LDA是文本挖掘中常用的主题模型,用来从大量文档中提取出最能表达各个主题的一些关键词,具体算法原理可参阅KM上相关文章。笔者因业务需求,需对腾讯微博上若干账号的消息进行主题提取,故而尝试了一下该算法,基于python的gensim包实现一个简单的分析。准备工作安装python的中文分词模块, jieba安装python的文本主题建模的模块, gensim (官网 https://r原创 2016-04-18 08:11:04 · 14691 阅读 · 3 评论 -
从爬取到展示,数据科学工具串联练手 第2篇
书接上回(文章 http://blog.csdn.net/a_step_further/article/details/79360613 使用了python去爬取微博评论消息,再使用spark做预处理,用R做可视化),这次再换个姿势练习一下,思路是相近的,换换工具练手的目标仍然是活跃下思维。任务说明爬取新浪微博消息;这一次使用java处理中文文本预处理,这次的聚焦点在于文本中姓名的提取;这一次使...原创 2018-02-27 08:32:38 · 347 阅读 · 0 评论 -
20 Newsgroup文本分类-基于sklearn
本项目聚焦于通过机器学习的方法来进行文本自动分类,采用的是有监督的学习,根据已经标注好类别的文本语料进行特征提取、建模、训练,进而对未知样本进行预测。可用于此场景的分类模型有很多,例如贝叶斯、决策树、SVM、深度学习等。本项目中将会重点尝试几个有代表性的模型,并对其应用效果进行对比分析。使用的数据集来自于业内著名的20 Newsgroups 数据集,包含20类标注好的样本,数据量共计约2万条记...原创 2018-07-28 12:03:07 · 5894 阅读 · 0 评论