Web中文信息抽取(1)

原创 2006年05月26日 10:47:00

        昨天正式上交开题报告,确定题目是“Web中文信息抽取技术研究与实现”。初步确定采用自然语言理解的方式来做,It's time to do somthing realistic now:

  • 假设自己构建的蜘蛛程序能够抓取指定招聘网站的相关页面,还要假设html parser 能够完全过滤html标记(这里有个疑问,我注意到不少招聘网站的结构计较简单,已经比较接近结构化文本,所以很有必要利用其中的一些html标记来进行抽取)。
  • 待网页内容已经完全转化成纯文本后,就要做分词和命名实体识别了,这时候是把中科院的ICTCLAS系统拿来用还是用微软研究院的MSRSeg还需要斟酌(这里要识别的命名实体主要是 地名 机构名 职业名 时间 联系方式等)
  • 待命名实体识别出来后紧接着就是关系抽取,其实这里关系抽取没有很大必要了,试想:一个页面里找到了地名 机构名 职业名 时间 联系方式后就确定是: 地名<->机构名是(LOC-OF关系) ; 机构名<->职业名(EMPLOY-OF关系).可以直接存入数据库以供客户查询。

        经过以上分析可以得出,该信息抽取系统的表现主要取决于命名实体识别阶段的准确度,所以目前需要主攻的是命名实体识别,可以改进ICTCLAS或者按照MSRSeg的资料来重写。而不是研究如何使用SVM来进行关系抽取!

定个目标:用两个月的时间来完成一个效果比较好的命名实体识别模块! 加油!!!

 

 

 

Web中文信息抽取(2)

        截至到昨天上午,一个比较完善的HTML Parser终于被我炮制成功! 它能够比较干净的过滤出网页标题和正文,我还根据需要按照网页的布局把每个单元格内容用空格分隔开来,这样就便于我进行...
  • nwumengfei
  • nwumengfei
  • 2006年06月02日 11:16
  • 798

python 抽取信息

获取网页中的信息,用到了BeautifulSoup和tornado #!/usr/bin/env python3 from bs4 import BeautifulSoup #import torn...
  • mikon_lee
  • mikon_lee
  • 2013年08月22日 19:55
  • 865

基于Gate的ANNIE插件的中文信息抽取

在上一篇文章《基于Gate的中文信息抽取API调用方式--未成功》中本来想采用Gate中的中文插件进行命名实体识别,但是没有成功,最后只能通过扩展Gate中的ANNIE插件来实现了。        A...
  • yunzhongfeiniao
  • yunzhongfeiniao
  • 2013年11月07日 17:35
  • 3389

网上信息抽取技术纵览

网上信息抽取技术纵览 (Information Extraction from World Wide Web-A Survey) Line Eikvil 原著 (1999.7) 陈鸿标 译 (2...
  • fkyyly
  • fkyyly
  • 2014年06月18日 22:11
  • 1623

中文信息抽取技术初探索

先推荐一篇博士论文:【中文事件抽取关键技术研究-谭红叶】以下大部分内容都是从这篇博士论文中整理出来的。在MUC评测会议上,信息抽取定义包括: 命名实体的识别(Named entities,NE) ...
  • csvdvg
  • csvdvg
  • 2017年07月03日 20:32
  • 170

关于信息抽取的整理总结(上)

关于信息抽取的整理总结(上)
  • hqc888688
  • hqc888688
  • 2017年06月22日 10:07
  • 2580

python 提取中文

项目需求: 游戏制作多国语言版本,把LUA代码中所有的文字抽出来。 代码中用到文字的都是 双引号(“)开头跟结尾的。所以只提取这部分,另外图片跟资源也是 双引号(“)开头...
  • woshiwoxinheqiu
  • woshiwoxinheqiu
  • 2016年11月17日 18:54
  • 464

信息抽取研究综述

信息抽取研究综述ж            李保利 陈玉忠 俞士汶(北京大学计算机科学与技术系 计算语言学研究所 北京 100871)摘要:信息抽取研究旨在为人们提供更有力的信息获取工具,以应对信息爆炸...
  • zhanghefu
  • zhanghefu
  • 2007年03月16日 13:28
  • 3456

Python 网络爬虫与信息获取(二)—— 页面内容提取

1. 获取超链接python获取指定网页上所有超链接的方法 links = re.findall(b’”((http|ftp)s?://.*?)”’, html) links = re.findall...
  • lanchunhui
  • lanchunhui
  • 2017年07月31日 11:21
  • 182

基于Gate的中文信息抽取API调用方式--未成功

学习Gate快一周了,一直在看官方的英文文档,却一直收获不到,想在自己的程序中通过API的方式实现调用Gate完成信息抽取。Gate中的ANNIE可以实现英文的命名实体识别,但是却不支持中文,后来发现...
  • yunzhongfeiniao
  • yunzhongfeiniao
  • 2013年11月05日 17:59
  • 2995
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Web中文信息抽取(1)
举报原因:
原因补充:

(最多只允许输入30个字)