Web中文信息抽取(2)

原创 2006年06月02日 11:16:00

        截至到昨天上午,一个比较完善的HTML Parser终于被我炮制成功! 它能够比较干净的过滤出网页标题和正文,我还根据需要按照网页的布局把每个单元格内容用空格分隔开来,这样就便于我进行下一步工作了!(昨天下午被女朋友拉去过儿童节,也算是对我最近两天工作的小小祝贺吧!)

        下一步的工作该怎么做? 先构建一个Spider去抓取网站内容,还是先看看机构名识别把已经Parse过的网页内容处理一下?  抓取指定网站网页并不难,甚至也可以先不考虑Spider的爬行效率,但要考虑的是抓取的内容是不是招聘信息网页!  机构名识别方面肯定要借助于已经Parser过的半结构内容,比如"***  西安华信建筑公司 ***"每个单元格的内容已经被空格分隔开来,所以分词错误方面不用担心,担心的在于怎么确定某个单元格的内容就是机构名<ORG>,是仅仅判断这个单元体末尾有"公司"这个关键字就说是个机构名,还是根据马尔可夫模型概率来计算?

       这两天得尽快缕清思路,时不待人,不能无谓的消磨时间!

     

Web中文信息抽取(1)

        昨天正式上交开题报告,确定题目是“Web中文信息抽取技术研究与实现”。初步确定采用自然语言理解的方式来做,Its time to do somthing realistic now: ...
  • nwumengfei
  • nwumengfei
  • 2006年05月26日 10:47
  • 1150

python 抽取信息

获取网页中的信息,用到了BeautifulSoup和tornado #!/usr/bin/env python3 from bs4 import BeautifulSoup #import torn...
  • mikon_lee
  • mikon_lee
  • 2013年08月22日 19:55
  • 865

基于Gate的ANNIE插件的中文信息抽取

在上一篇文章《基于Gate的中文信息抽取API调用方式--未成功》中本来想采用Gate中的中文插件进行命名实体识别,但是没有成功,最后只能通过扩展Gate中的ANNIE插件来实现了。        A...
  • yunzhongfeiniao
  • yunzhongfeiniao
  • 2013年11月07日 17:35
  • 3396

网上信息抽取技术纵览

网上信息抽取技术纵览 (Information Extraction from World Wide Web-A Survey) Line Eikvil 原著 (1999.7) 陈鸿标 译 (2...
  • fkyyly
  • fkyyly
  • 2014年06月18日 22:11
  • 1632

中文信息抽取技术初探索

先推荐一篇博士论文:【中文事件抽取关键技术研究-谭红叶】以下大部分内容都是从这篇博士论文中整理出来的。在MUC评测会议上,信息抽取定义包括: 命名实体的识别(Named entities,NE) ...
  • csvdvg
  • csvdvg
  • 2017年07月03日 20:32
  • 179

关于信息抽取的整理总结(上)

关于信息抽取的整理总结(上)
  • hqc888688
  • hqc888688
  • 2017年06月22日 10:07
  • 2634

python 提取中文

项目需求: 游戏制作多国语言版本,把LUA代码中所有的文字抽出来。 代码中用到文字的都是 双引号(“)开头跟结尾的。所以只提取这部分,另外图片跟资源也是 双引号(“)开头...
  • woshiwoxinheqiu
  • woshiwoxinheqiu
  • 2016年11月17日 18:54
  • 471

有关ogg修改抽取进程检查点的文章

有关ogg修改抽取进程检查点的文章
  • msdnchina
  • msdnchina
  • 2017年01月31日 20:22
  • 504

时间抽选基2FFT及IFFT算法C语言实现

/*时间抽选基2FFT及IFFT算法C语言实现*//*Author :Junyi Sun*//*Copyright 2004-2005*//*Mail:ccnusjy@yahoo.com.cn*/#i...
  • fxsjy
  • fxsjy
  • 2004年10月01日 02:37
  • 6809

基2FFT时间抽取和频域抽取算法比较

*基二FFT算法*/ #include "math.h" #include "stdio.h" struct compx { double real; double imag; } compx ;...
  • ywxiao66
  • ywxiao66
  • 2013年10月30日 15:30
  • 2271
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Web中文信息抽取(2)
举报原因:
原因补充:

(最多只允许输入30个字)