中文分词之识别语义

本文探讨了中文分词中的语义识别问题,强调了识别语义的重要性。介绍了词典匹配和自动识别抽取两种方法,包括情感词、连词、程度词、否定词的词典匹配以及评价对象的完整性、概率选择等原则。目的是提高搜索引擎检索结果的相关性。
摘要由CSDN通过智能技术生成

           中文分词之识别语义

一、      概述:

我们都知道、对于搜索引擎、如果利用现成的框架是比较容易实现以下步骤:获取文本内容、建立索引、分词识别、检索。但是这并不能保证检索出来的东西是我们想要的结果。识别语义、查找的东西与检索出来的东西的相关性是搜索引擎的核心。      

例如:“今年中秋、这里人来人往、好不热闹!”通常来说“不”字是否定词,但是这里的“不”是语气词,并非否定的意思。所以,中文是博大精深的沉淀文化,很多词语带有情感色彩,要想识别出这些词语并分离出来准确分析其语义,这就只能通过两个方法:词典匹配和自动识别抽取。

1.   词典匹配

1)        情感词词典

2)        连词词典

3)        程度词词典

4)        否定词词典

2.   自动识别抽取

属性词抽取

评价对象抽取

二、      词典匹配

词典匹配是人为研究添加上去的。每读一段话,如果想判别它的语义那么首先根据词典进行匹配才能判别它的语义。

2.1部分情感词词典:

正面评价

蔼然、蔼然可亲、安安静静、安定、安分、安然无事、安如泰山、百里挑一、百读不厌、

便、便当、便捷、便利、便民、便宜、变通、百折不回

正面情感

爱不忍释、爱不释手、爱宠、爱戴、爱抚、爱好、爱护、爱怜、爱恋、爱慕、爱上、

 爱屋及乌、称道、称快、称赏、称颂、称叹、称羡、称谢、称心、称心如意

称心如愿、称许、称誉、称愿、称赞

负面评价

暗中、暗自、暗朦、岸然、肮里肮脏、肮脏、昂贵、凹凸、凹凸不平、傲、傲岸、

 傲慢、八面玲珑、跋扈、霸道霸气、白痴般

负面情感

板起脸、 板着脸、板着面孔、半信半疑、包涵、包容、褒贬、睖睁抱不平、抱憾

抱憾终身、抱恨悲哀、悲愁、悲悯变色、变心、、憋得慌、勃然大怒、不甘

不甘心、不过意、不寒而栗

 

2.2部分连词词典:

转折

但、可是、然而、不过、却

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值