中文分词之识别语义
一、 概述:
我们都知道、对于搜索引擎、如果利用现成的框架是比较容易实现以下步骤:获取文本内容、建立索引、分词识别、检索。但是这并不能保证检索出来的东西是我们想要的结果。识别语义、查找的东西与检索出来的东西的相关性是搜索引擎的核心。
例如:“今年中秋、这里人来人往、好不热闹!”通常来说“不”字是否定词,但是这里的“不”是语气词,并非否定的意思。所以,中文是博大精深的沉淀文化,很多词语带有情感色彩,要想识别出这些词语并分离出来准确分析其语义,这就只能通过两个方法:词典匹配和自动识别抽取。
1. 词典匹配
1) 情感词词典
2) 连词词典
3) 程度词词典
4) 否定词词典
2. 自动识别抽取
属性词抽取
评价对象抽取
二、 词典匹配
词典匹配是人为研究添加上去的。每读一段话,如果想判别它的语义那么首先根据词典进行匹配才能判别它的语义。
2.1部分情感词词典:
正面评价 |
蔼然、蔼然可亲、安安静静、安定、安分、安然无事、安如泰山、百里挑一、百读不厌、 便、便当、便捷、便利、便民、便宜、变通、百折不回 |
正面情感 |
爱不忍释、爱不释手、爱宠、爱戴、爱抚、爱好、爱护、爱怜、爱恋、爱慕、爱上、 爱屋及乌、称道、称快、称赏、称颂、称叹、称羡、称谢、称心、称心如意、 称心如愿、称许、称誉、称愿、称赞 |
负面评价 |
暗中、暗自、暗朦、岸然、肮里肮脏、肮脏、昂贵、凹凸、凹凸不平、傲、傲岸、 傲慢、八面玲珑、跋扈、霸道霸气、白痴般 |
负面情感 |
板起脸、 板着脸、板着面孔、半信半疑、包涵、包容、褒贬、睖睁抱不平、抱憾、 抱憾终身、抱恨悲哀、悲愁、悲悯变色、变心、憋、憋得慌、勃然大怒、不甘、 不甘心、不过意、不寒而栗 |
2.2部分连词词典:
转折 |
但、可是、然而、不过、却 |