![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
nlp
文章平均质量分 77
gdp5211314
这个作者很懒,什么都没留下…
展开
-
N元语法模型的数据稀疏问题解决方法之一:Good-Turing平滑
可以这样说我们把你n1/N的概率剩量分配给未见事件。为了更好地理解古德-图灵(Good-Turing)估计法,以一个例子来讲解。 训练集合:T={what is it what is small?}|T|=8 验证集合:V={what is it small ? flying birds are a bird.}, |V|=12 在训练集合上,我们得到:p()=p(it)=p(转载 2012-06-11 23:29:46 · 4361 阅读 · 2 评论 -
利用Stanford Parser进行中文观点抽取(附代码)
问题: 所谓的观点抽取就是从文本中获取关于某个特征词的观点词语。特征词在句子结构中通常为主语或者宾语,从词性上看一般为名词或者形容词,而观点词通常为带有情感色彩的形容词或者副词。观点词的抽取在用户对产品评价分析中非常有用。 例如:在句子“卖家 的 服务 态度 不错 , 快递 也 很 迅速”这个句子中,“服务”和“快递”是两个描述卖家的特征词,而“不错”和“迅速”则是这两个词的观点词。转载 2012-08-14 15:24:36 · 4459 阅读 · 1 评论 -
自然语言处理工具(Stanford-Parser)使用注意事项
Stanford-Parser: 斯坦福大学自然语言研究小组推出的语法解析工具,可以针对某个句子解析其句子结构,为句子中不同的成分打上成分标签,具体到某个分词单元,可以为其打上词性标签。输入为内存中的String或者List,或者utf-8 编码的文本文件,不管何种输入格式,需要句子事先进行好分词工作,各个分词单元间以空格符分隔。可以将句子的整体结构进行树形展示,其中叶子节点为各个分词单转载 2012-08-14 15:23:23 · 2269 阅读 · 0 评论 -
利用Stanford Parser进行观点词否定词抽取
利用Stanford Parser进行观点词否定词抽取 问题: 接上一篇内容,当我们在文本中得到特征词的观点词之后,如果我们要做情感分析、极性判定(用户是在赞美还是批评),除了分析观点词本身的情感色彩之外,我们还需得到句子中是否有对该观点词的否定。如“我喜欢这个产品”->肯定;“我不喜欢这个产品”->否定。常见的否定词一般有“不”“无”“没有”等,否定词常常出现在观点词前面(转载 2012-08-14 15:25:10 · 2630 阅读 · 1 评论 -
Libsvm和Liblinear的使用经验谈
Libsvm和Liblinear都是国立台湾大学的Chih-Jen Lin博士开发的,Libsvm主要是用来进行非线性svm 分类器的生成,提出有一段时间了,而Liblinear则是去年才创建的,主要是应对large-scale的data classification,因为linear分类器的训练比非线性分类器的训练计算复杂度要低很多,时间也少很多,而且在large scale data上的性转载 2014-09-19 16:23:56 · 766 阅读 · 0 评论 -
基于互信息和左右信息熵的短语提取识别
原文链接: 在中文语言处理领域,一项重要的任务就是提取中文短语,也即固定多字词表达串的识别。短语提取经常用于搜索引擎的自动推荐,新词识别等领域。本文主要实现了从陌生文本中自动发现固定短语,并给出原理和步骤。 测试数据 算法工程师 算法(Algorithm)是一系列解决问题的清晰指令,也就是说,能够对一定规范的输入,在有限时间内获得所要求的输出。如果一个算法有缺陷,或转载 2014-10-20 15:14:03 · 4059 阅读 · 0 评论