Web中文信息抽取(2)

原创 2006年06月02日 11:16:00

        截至到昨天上午,一个比较完善的HTML Parser终于被我炮制成功! 它能够比较干净的过滤出网页标题和正文,我还根据需要按照网页的布局把每个单元格内容用空格分隔开来,这样就便于我进行下一步工作了!(昨天下午被女朋友拉去过儿童节,也算是对我最近两天工作的小小祝贺吧!)

        下一步的工作该怎么做? 先构建一个Spider去抓取网站内容,还是先看看机构名识别把已经Parse过的网页内容处理一下?  抓取指定网站网页并不难,甚至也可以先不考虑Spider的爬行效率,但要考虑的是抓取的内容是不是招聘信息网页!  机构名识别方面肯定要借助于已经Parser过的半结构内容,比如"***  西安华信建筑公司 ***"每个单元格的内容已经被空格分隔开来,所以分词错误方面不用担心,担心的在于怎么确定某个单元格的内容就是机构名<ORG>,是仅仅判断这个单元体末尾有"公司"这个关键字就说是个机构名,还是根据马尔可夫模型概率来计算?

       这两天得尽快缕清思路,时不待人,不能无谓的消磨时间!

     

版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

基于Gate的ANNIE插件的中文信息抽取

在上一篇文章《基于Gate的中文信息抽取API调用方式--未成功》中本来想采用Gate中的中文插件进行命名实体识别,但是没有成功,最后只能通过扩展Gate中的ANNIE插件来实现了。        A...

基于Gate的中文信息抽取API调用方式--未成功

学习Gate快一周了,一直在看官方的英文文档,却一直收获不到,想在自己的程序中通过API的方式实现调用Gate完成信息抽取。Gate中的ANNIE可以实现英文的命名实体识别,但是却不支持中文,后来发现...

Quartus2中文信息教程

  • 2010-03-14 14:55
  • 7.84MB
  • 下载

奥运奖牌中文信息系统

奥运奖牌中文信息系统

STL &amp; Boost 相关中文信息收集(持续更新中)

STL & Boost 相关中文站点信息 STL中文站 STLChina.org STLChina.org 的 Boost 中文站 Boost 安装文档 ...

cmd控制台插入mysql数据库中文信息时,插入失败的解决办法

mysql数据库在插入英文时没问题,但是在插入中文信息时往往会失败,此时的问题就是程序不同模块间的中文编码格式不一致所致,而支持中文的编码格式有三种,分别是utf-8,gbk,gb2312三种,在编程...

中文信息学报2010.05期合集

  • 2012-01-04 17:41
  • 8.35MB
  • 下载
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)