Web信息抽取
wang_quan_li
高级工程师,CSAI顾问团顾问,PHP策进会(PEA)兰州常委,首批陇原青年创新人才扶持计划人选,甘肃省省属科研院所科技创新团队——情报研究与信息服务模式创新团队成员。先后取得程序员、软件设计师、系统分析师资格。
展开
-
基于PHP的统一检索系统的设计与实现
摘要:通过设计统一检索系统过程模型,对网络数据库的检索步骤进行抽象,并对网络数据库进行描述,获取网络数据库的检索参数,实现在PHP5.0环境下网络数据库的统一检索,提高用户检索效率。采用PHP 5.0开发程序,优势在于优异的字符运算处理速度和可靠性,通过与Apache 2.0 Web服务器相结合使得统一检索系统具备良好的性能和稳定性。同时,通过构造一个合理的四元组模型实现统一检索系统完整的二次检索原创 2009-04-04 11:51:00 · 1651 阅读 · 0 评论 -
Web信息抽取技术在统一检索系统中的应用研究
结合统一检索系统的信息抽取特点,应用基于HTML结构的信息抽取方法,介绍人工找到切割关键信息块的标记和位置的方法,最后提出基于子树广度的Web信息抽取方法,并给出了抽取规则的实现方案及实例。实验证明,该方法在基于Web过程模拟的统一检索系统中能保证很高的数据抽取回召率和查准率,并且成功应用于四家省级科技文献共享平台。原创 2011-08-03 22:59:48 · 839 阅读 · 0 评论 -
基于子树广度的Web信息抽取
摘要 提出一种新的网页信息抽取方法,基于子树的广度,可不加区分地对不同科技文献网站的页面信息进行自动抽取。对大量科技文献网站进行信息抽取实验,已应用到甘肃省科技文献共享平台。实验结果证明,该方法能不依赖科技文献网页的来源而自动地抽取相关信息,并能保证较高的数据抽取回召率和查准率。关键词 子树广度 信息抽取 跨库检索文章连接http://www.ecice06.com/CN/ab原创 2009-04-04 11:42:00 · 752 阅读 · 0 评论 -
PHP采集利器:Snoopy 试用心得
Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页内容,发送表单。Snoopy正确运行需要你的服务器的PHP版本在4以上,并且支持PCRE(Perl Compatible Regular Expressions),基本的LAMP服务都支持。 服务器不支持curl时候的最好选择一、Snoopy的一些特点: 1.抓取网页的内容 fetch 2.抓取网页转载 2014-01-10 22:47:17 · 1271 阅读 · 0 评论 -
基于Web过程模拟的动态Web信息获取
摘要:介绍了分析相关Web页面的方法和经验,实现了自动提交HTML表单获得所需页面。采用性能优异的Web信息获取组件CURL,对大量科技文献网站的网页进行信息获取,实验表明CURL具有优异的处理速度,并成功应用到甘肃省科技文献共享平台的统一检索系统中。关键词:Web过程模拟;动态Web信息获取;CURL中图分类号:TP393随着Internet的快速发展,Web资源已经成为一种人们获取信息的主要来原创 2009-04-04 11:46:00 · 1059 阅读 · 0 评论 -
snoopy与htmlsql实例(盗墓笔记采集)
snoopy这个采集类库是个很好玩的东西,简单而且使用,一般的采集应付起来绰绰有余。最近一个哥们要看盗墓笔记的全本TXT文档,让我帮他采集,想了下决定用snoopy和一个好玩的类库htmlsql来做,htmlsql第一次使用,感觉比较好玩,写SQL的感觉非常有趣,就是灵活性上不是很突出,但做这种小的采集足够了,可能是因为第一次使用这个类库,并不是很顺利,写了两个多钟头,才搞定这个采集,这里放出转载 2014-01-10 22:54:19 · 1664 阅读 · 0 评论 -
QueryList一个基于phpQuery的无比强大的采集工具
QueryList是一个基于phpQuery的通用列表采集类,是一个简单、 灵活、强大的采集工具,采集任何复杂的页面 基本上就一句话就能搞定了。QueryList 使用//实例化一个采集对象$hj = new QueryList('http://www.baidu.com/s?wd=jaekj',array('title'=>array('h3','text')));//输转载 2014-05-13 13:28:15 · 2852 阅读 · 0 评论