NLP
文章平均质量分 80
tzw_cs
这个作者很懒,什么都没留下…
展开
-
情感词生成 [opinion mining]
我们知道,在情感挖掘中,主要有情感分类(Sentiment Classification)和情感抽取(Opinion Extraction)。对于文档情感分类,一般是构造特征向量来进行分类或是聚类。也有通过计算文档中词的情感分数来获取文档的情感极性,然而这种方法用的不多,效果也不佳。但是对于句子级别的情感挖掘,由于特征少,情感分类效果没有那么理想,而句子的情感往往是由句子中的几个情感词决定。因而获原创 2012-12-05 19:35:33 · 2618 阅读 · 0 评论 -
HIT LTP的使用及利用句法关系简单抽取示例
中文的分词工具相对来说多点,比较有名的是计算所的ICTCLAS,哈工大的LTP,斯坦福的Parser等。但是命名实体识别、句法分析等的工具却不多,我所知的有哈工大的LTP、Stanford Parser。由于Stanford Parser最先是针对英文的处理工具,在中文上效果相对来说比LTP差些。下面我介绍一些个人对LTP的简单认识及初步使用。不同于Stanford Parser的java版本,L原创 2012-12-05 19:35:54 · 8477 阅读 · 0 评论 -
情感对象抽取【opinion mining】
情感对象抽取By twenzon 2012-4-20观点挖掘与情感分析在近十年得到快速发展,研究也因为应用的需求从最初的情感分类[1,2]发展到现在的各种研究方向如情感对象抽取、情感极性判断、情感持有者抽取、情感主体抽取等[3]。因为产品评论中存在着重要的商业情报(如产品的哪些特征具有什么优缺点,消费者是否喜欢,和其他竞争品比较怎么样),对其进行观点挖掘很有意义。这显然不仅需要抽取观点极性,还需要原创 2012-12-05 19:36:13 · 1373 阅读 · 0 评论 -
Eclipse中ICTCLAS 2011 的java调用
本文由twenz整理。以前ICTCLAS官方网站上并没有官方的java版本,只有一些爱好者根据c++改写的几个java版本供下载。2011/2009则提供了官方的java调用版本,但分词程序的实现应该还是基于c++的dll文件,只是提供了java的借口。下面简要介绍eclipse中使用ICTCLAS2011的简要步骤: 1. 下载最新版的分词开源软件ICTCLAS的java版(Windows)IC原创 2012-12-05 19:35:25 · 1259 阅读 · 0 评论 -
NLTK学习笔记
学习参考书: http://nltk.googlecode.com/svn/trunk/doc/book/1. 使用代理下载数据nltk.set_proxy("**.com:80")nltk.download()2. 使用sents(fileid)函数时候出现:Resource 'tokenizers/punkt/english.pickle' not foun原创 2013-01-05 17:20:10 · 8978 阅读 · 1 评论 -
利用Stanford Parser进行中文行为抽取
注:转载请注明出处twenz。欢迎大家交流探讨,指出错误,有什么好的建议方法也请给我留言。利用Stanford Parser进行中文行为抽取(Action mining)问题所谓的行为抽取就是从开源文本中获取关于给定的某个人/组织的行为,主要包括主语、谓语和宾语。其中主语是给定的一些词表示了需要抽取的信息对象(人、组织或团体)。谓语和宾语则表示了行为。例如,我们要抽取关于“塔利班”的行为,则给定句原创 2012-12-05 19:35:49 · 4654 阅读 · 4 评论 -
XGBoost及CNN算法的文本分类试验
2018年6月份SMP会议有一个比赛,是头条抓取的新闻进行分类决定是人类作者、机器翻译、自动摘要、或者机器作者。多年没有做过这方面的工作,看到朋友的介绍,就想拿那个数据来练习一两个算法。正好在网络上牛人看到有介绍连他以前参加类似文本分类比较的介绍以及在github上共享的源码,于是就clone了他的代码来做测试。但是因为小白,基本上看不太懂,加上我装的python 3以上的版本,所以错误百出。...原创 2018-07-19 17:13:19 · 4183 阅读 · 0 评论