Web中文信息抽取(1)

原创 2006年05月26日 10:47:00

        昨天正式上交开题报告,确定题目是“Web中文信息抽取技术研究与实现”。初步确定采用自然语言理解的方式来做,It's time to do somthing realistic now:

  • 假设自己构建的蜘蛛程序能够抓取指定招聘网站的相关页面,还要假设html parser 能够完全过滤html标记(这里有个疑问,我注意到不少招聘网站的结构计较简单,已经比较接近结构化文本,所以很有必要利用其中的一些html标记来进行抽取)。
  • 待网页内容已经完全转化成纯文本后,就要做分词和命名实体识别了,这时候是把中科院的ICTCLAS系统拿来用还是用微软研究院的MSRSeg还需要斟酌(这里要识别的命名实体主要是 地名 机构名 职业名 时间 联系方式等)
  • 待命名实体识别出来后紧接着就是关系抽取,其实这里关系抽取没有很大必要了,试想:一个页面里找到了地名 机构名 职业名 时间 联系方式后就确定是: 地名<->机构名是(LOC-OF关系) ; 机构名<->职业名(EMPLOY-OF关系).可以直接存入数据库以供客户查询。

        经过以上分析可以得出,该信息抽取系统的表现主要取决于命名实体识别阶段的准确度,所以目前需要主攻的是命名实体识别,可以改进ICTCLAS或者按照MSRSeg的资料来重写。而不是研究如何使用SVM来进行关系抽取!

定个目标:用两个月的时间来完成一个效果比较好的命名实体识别模块! 加油!!!

 

 

 

版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

基于Gate的ANNIE插件的中文信息抽取

在上一篇文章《基于Gate的中文信息抽取API调用方式--未成功》中本来想采用Gate中的中文插件进行命名实体识别,但是没有成功,最后只能通过扩展Gate中的ANNIE插件来实现了。        A...

基于Gate的中文信息抽取API调用方式--未成功

学习Gate快一周了,一直在看官方的英文文档,却一直收获不到,想在自己的程序中通过API的方式实现调用Gate完成信息抽取。Gate中的ANNIE可以实现英文的命名实体识别,但是却不支持中文,后来发现...

奥运奖牌中文信息系统

奥运奖牌中文信息系统

STL &amp; Boost 相关中文信息收集(持续更新中)

STL & Boost 相关中文站点信息 STL中文站 STLChina.org STLChina.org 的 Boost 中文站 Boost 安装文档 ...

cmd控制台插入mysql数据库中文信息时,插入失败的解决办法

mysql数据库在插入英文时没问题,但是在插入中文信息时往往会失败,此时的问题就是程序不同模块间的中文编码格式不一致所致,而支持中文的编码格式有三种,分别是utf-8,gbk,gb2312三种,在编程...

中文信息学报2010.05期合集

  • 2012-01-04 17:41
  • 8.35MB
  • 下载

谷歌Web中文开发手册:1目的&目录

现在有一系列的智能手机和大屏幕显示设备(甚至是电视),所以我们需要学习怎样开发一个可以在这些设备中都表现良好的网站。
  • wowkk
  • wowkk
  • 2014-05-16 13:15
  • 1949
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)