对“分析网页的过程及工具”的功能记录

正则是一种基于文字匹配的查询模式,往往使用回溯算法,在文本内容很多的时候,会产生很大的运行成本。而且,在处理的过程中,很容易就因为一个小的符号的问题产生结果上的错误。

xpath是一个处理xml的工具包,针对的应用场景是处理一个结构化的xml文件。它使用节点树的概念对目标进行处理,查找一个xml文件中的信息的效率就是搜索树的效率。这样大大提高了搜索的效率,而且在进行条件查询时,能够提供//div[@class='']这种结构的条件赋值。

json是处理网页中javascrip标签中的格式化内容的处理工具。

clean的作用,是将Html中非格式化的一些标签处理格式化,比如说有一个<div>的开始标签,却漏掉了</div>标签的情形。这种情况会造成xpath执行时的错误。

因而,分析网页,抽取数据的流程是:先用htmlparser这个工具清理不规范的html数据(实际上这个工具可以处理抽取数据的功能,但比起xpath要功能上差些);使用xpath找到符合自己所给条件的数据;对于javascript标签中的数据,用json去抽取。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值