Web中文信息抽取(1)

最新推荐文章于 2024-06-29 10:15:44 发布

nwumengfei

最新推荐文章于 2024-06-29 10:15:44 发布

阅读量1.5k

点赞数

文章标签： web html 招聘数据库语言微软

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/nwumengfei/article/details/756015

版权

昨天正式上交开题报告，确定题目是“Web中文信息抽取技术研究与实现”。初步确定采用自然语言理解的方式来做，It's time to do somthing realistic now：

假设自己构建的蜘蛛程序能够抓取指定招聘网站的相关页面，还要假设html parser 能够完全过滤html标记(这里有个疑问，我注意到不少招聘网站的结构计较简单，已经比较接近结构化文本，所以很有必要利用其中的一些html标记来进行抽取)。
待网页内容已经完全转化成纯文本后，就要做分词和命名实体识别了，这时候是把中科院的ICTCLAS系统拿来用还是用微软研究院的MSRSeg还需要斟酌(这里要识别的命名实体主要是地名机构名职业名时间联系方式等)
待命名实体识别出来后紧接着就是关系抽取，其实这里关系抽取没有很大必要了，试想：一个页面里找到了地名机构名职业名时间联系方式后就确定是: 地名<->机构名是(LOC-OF关系) ; 机构名<->职业名(EMPLOY-OF关系).可以直接存入数据库以供客户查询。

经过以上分析可以得出,该信息抽取系统的表现主要取决于命名实体识别阶段的准确度,所以目前需要主攻的是命名实体识别，可以改进ICTCLAS或者按照MSRSeg的资料来重写。而不是研究如何使用SVM来进行关系抽取！

定个目标：用两个月的时间来完成一个效果比较好的命名实体识别模块！加油！！！

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
7
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

nwumengfei CSDN认证博客专家 CSDN认证企业博客

码龄20年

6: 原创

60万+: 周排名

187万+: 总排名

8151: 访问

: 等级

191: 积分

3: 粉丝

0: 获赞

8: 评论

1: 收藏

私信

关注

热门文章

分类专栏

最新评论

Web中文信息抽取(1)
liping830723: 我也做这方面，想请教下，QQ号30622462，先谢谢了
Web中文信息抽取(1)
eric0630: 好的谢谢拉你平时上Q 吗我的QQ号是245384685 加我行吗油箱是245384685@qq.com 很多问题想请教啊
Web中文信息抽取(1)
eric0630: 好的谢谢拉你平时能上QQ吗我的QQ号是245384685 加我行吗
Web中文信息抽取(1)
nwumengfei: 本人已毕业了，信息抽取已告一段落，不过我还是乐意和你讨论一二。
Web中文信息抽取(1)
eric0630: 你好我是合肥的女生，现在正处于做论文的时候也是中文信息抽取方面的急死了一点头绪都没能不能请教一二啊

最新文章

目录

评论 7

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。