自然语言处理(NLP)
白辰甲
哈尔滨工业大学博士,关注强化学习(Reinforcement Learning)
展开
-
Textrank权值提取文本标签提取
我已经爬取到了指定博主的新浪微博,然后我想从微博中提取出可以代表该博主兴趣特征的100个关键词,然后由这100个关键词提取出10个标签,代表博主的兴趣。我们此处使用基于Textrank权值的关键词提取方法。输入:微博文本集合,如下图(每一行一条微博) 程序原理如下:(请勿抄袭和转载) 程序如下:# -*- coding: utf-8 -*-__author__ = 'Bai C原创 2015-06-29 21:20:40 · 6356 阅读 · 0 评论 -
基于情感词典的情感打分
原理我就不讲了,请移步下面这篇论文,包括情感词典的构建(各位读者可以根据自己的需求稍作简化),以及打分策略(程序对原论文稍有改动)。论文在这里下载:基于情感词典的中文微博情感倾向性研究-陈晓东-华中科技大学 (大家可以上百度学术搜索下载)本文采用的方法如下: 首先对单条微博进行文本预处理,并以标点符号为分割标志,将单条微博分割为n个句子,提取每个句子中的情感词 。以下两步的处理均以...原创 2015-06-29 21:01:18 · 37336 阅读 · 96 评论