第二届百度&西安交通大学大数据竞赛

最新推荐文章于 2020-05-13 13:19:25 发布

盗才生

最新推荐文章于 2020-05-13 13:19:25 发布

阅读量2.7k

点赞数

分类专栏：数据挖掘自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Three_fish/article/details/52382610

版权

自然语言处理同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

0 篇文章 0 订阅

订阅专栏

赛题描述：

http://openresearch.baidu.com/online/artical.do?method=activityItemDetail&activityID=26eb630e-5839-452d-ad71-bf023a8d6327&navIndex=2

解题思路：

需要识别的实体是主语或者宾语，而主语宾语左右两边的词都是有固定词性。这里没采用分词工具，就直接提取训练数据中核心实体两旁的文字。如：

遵义会议旧址，主要指召开遵义会议的那座小楼。

遵义会议旧址右边是：，主

为保证前后均有标签，向前补充特殊字符（补充几个，由提取长度而定）︽︽遵义会议旧址，主要指召开遵义会议的那座小楼。则左边是：︽︽

对训练数据遍历，提取所有标签（如：︽︽, ，主）。并统计出现的总次数A，及正确匹配的次数T。标签优先级设定为：T/(A+N)（N由自己设定，防止在训练集中仅出现一次，且刚好正确的标签优先级过高）。

1.遍历测试数据，按标签优先级顺序匹配文本，提取核心实体。

2.按标签优先级顺序匹配上一步生成的核心实体，对核心实心进一步提取，排除部分标签优先级顺序错误，及核心实体两边多重标签的影响。

3.对上一步识别的核心实体过滤，筛选出不包含停用词，不是情感词汇等条件的核心实体作为关键词。对上一步提取的核心实体遍历，如果包含关键词，则关键词作为该句的核心实体。降低所提取标签种类过少的影响。

4.对上一步识别的核心实体遍历，对包含停用词等条件的核心实体用长度更小的标签匹配，修改核心实体。

5.对上一步识别的核心实体过滤，筛选出包含停用词长度超过本身长度a%等条件的核心实体作为错误识别。放松条件，对错误识别的句子重新用标签匹配，生成核心实体。

源码：

https://github.com/3ZY/baidu_word_Recognizer

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。