NLP
文章平均质量分 75
goskiller
咨询公司出身,投身互联网金融,主抓数据分析和挖掘建模,在工作和带领团队中偶有所得
展开
-
使用python做简单的中文自然语言处理
最近在学习NLP(自然语言处理),于是先看了看都有神马包可以使用,查了一遍网上说是NLTK包,下载了然后才想到我是要学中文的自然语言处理,于是就想看看专门处理中文的包有哪些。 又是一番搜索,我找到了网络大神们目前比较推崇的结巴分词(jieba),下载下来试了一下,感觉分词功能不错,于是写篇文章记录一下。 我用的是centos7的虚拟机,已经安装了anaconda原创 2017-12-20 18:17:04 · 25625 阅读 · 1 评论 -
爬取微博评论并提取主要关键词(一)
接到一个自然语言处理的任务,主要是爬取医疗行业微博评论并提取关键词,顺便分类。最终是要对这些评论进行自动回复,给我的不过是初级任务,那么我就拆解任务目标,一步一步来实现。 一、首先实现的是爬虫,实际上微博自己有提供api接口供我们查询,我们只需要找到合适的医疗微博id,并找到该id下评论数较多的微博即可。 在手机或者电脑端,登录微博,搜索‘医生’,排在前五的是新浪爱问医生,...原创 2018-05-14 11:31:26 · 14481 阅读 · 1 评论 -
爬取微博评论并提取主要关键词(二)
在实现了微博评论爬取之后,可以对微博评论提取关键词了。 具体思路是找自然语言处理包,在网上查了半天,中文包目前就看到推荐的snownlp以及jieba。看了一下它们各自的案例介绍,感觉snownlp里面的功能还是没有jieba里面的丰富,特别是不知道snownlp如何自定义分词,而jieba可以比较简单的添加自定义分词以及词性,于是就选了jieba包。 首先我就针对其中一条微博...原创 2018-05-21 16:50:12 · 4091 阅读 · 1 评论