自然语言
seekerhit
这个作者很懒,什么都没留下…
展开
-
文本情感分析
给出一系列文本,判定它们的情感倾向性(positive or negative)。 一般都会采用机器学习的算法,要求有训练数据和测试数据。处理训练数据得到一个model,使用它来处理测试数据,得出每个测试样例的结果。这里有几个细节需要注意:测试数据和训练数据尽量要是同一个主题,不要相差太远,不然会降低训练处的model的适用效果;训练数据中正例和负例的比例要尽可能平衡。 主要的处理过程为:文本原创 2016-01-18 17:08:07 · 7919 阅读 · 3 评论 -
人物关系抽取
人物关系抽取是实体关系抽取的一种情况。实际上是两个过程:命名实体识别和关系抽取。 一般情况下,是给定一个文本,要求找出其中的人物实体(姓名), 和它们之间的关系种类。需要判定的关系种类往往有很多种,需要判定是否是其中的一种,以及到底是哪一种。 一般情况下,都会有训练数据和测试数据,二者的格式和内容主题不会相差多远。 对于命名实体识别,可以使用CRF做,有工具可以调用;也可以使用汉语言处理包H原创 2016-01-18 18:21:29 · 6518 阅读 · 2 评论 -
处理utf-8中文文本,程序莫名出错中断
由于中文使用utf-8编码时,编码可用的位数有限,所以并不能针对所有中文汉字进行编码。 中文汉字大约有五六万个(具体我也不清楚),但是utf-8编码的中文汉字好像只有两万字左右,因此,大量比较生僻的汉字未能编码,所以,处理包含这些字符的文本时,可能出错,但是没有办法,直接删除掉那些语句就OK了。或者也可以将编码改为Unicode。原创 2016-01-18 18:44:27 · 658 阅读 · 0 评论