关闭

Web中文信息抽取(1)

1125人阅读 评论(7) 收藏 举报

        昨天正式上交开题报告,确定题目是“Web中文信息抽取技术研究与实现”。初步确定采用自然语言理解的方式来做,It's time to do somthing realistic now:

  • 假设自己构建的蜘蛛程序能够抓取指定招聘网站的相关页面,还要假设html parser 能够完全过滤html标记(这里有个疑问,我注意到不少招聘网站的结构计较简单,已经比较接近结构化文本,所以很有必要利用其中的一些html标记来进行抽取)。
  • 待网页内容已经完全转化成纯文本后,就要做分词和命名实体识别了,这时候是把中科院的ICTCLAS系统拿来用还是用微软研究院的MSRSeg还需要斟酌(这里要识别的命名实体主要是 地名 机构名 职业名 时间 联系方式等)
  • 待命名实体识别出来后紧接着就是关系抽取,其实这里关系抽取没有很大必要了,试想:一个页面里找到了地名 机构名 职业名 时间 联系方式后就确定是: 地名<->机构名是(LOC-OF关系) ; 机构名<->职业名(EMPLOY-OF关系).可以直接存入数据库以供客户查询。

        经过以上分析可以得出,该信息抽取系统的表现主要取决于命名实体识别阶段的准确度,所以目前需要主攻的是命名实体识别,可以改进ICTCLAS或者按照MSRSeg的资料来重写。而不是研究如何使用SVM来进行关系抽取!

定个目标:用两个月的时间来完成一个效果比较好的命名实体识别模块! 加油!!!

 

 

 

0
0

猜你在找
【直播】机器学习&数据挖掘7周实训--韦玮
【套餐】系统集成项目管理工程师顺利通关--徐朋
【直播】3小时掌握Docker最佳实战-徐西宁
【套餐】机器学习系列套餐(算法+实战)--唐宇迪
【直播】计算机视觉原理及实战--屈教授
【套餐】微信订阅号+服务号Java版 v2.0--翟东平
【直播】机器学习之矩阵--黄博士
【套餐】微信订阅号+服务号Java版 v2.0--翟东平
【直播】机器学习之凸优化--马博士
【套餐】Javascript 设计模式实战--曾亮
查看评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
    个人资料
    • 访问:8087次
    • 积分:159
    • 等级:
    • 排名:千里之外
    • 原创:6篇
    • 转载:3篇
    • 译文:0篇
    • 评论:8条
    文章分类
    最新评论