对“分析网页的过程及工具”的功能记录

最新推荐文章于 2023-04-13 21:25:26 发布

uestcyao

最新推荐文章于 2023-04-13 21:25:26 发布

阅读量508

点赞数

分类专栏： py web抓取分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/uestcyao/article/details/7885880

版权

py web抓取分析专栏收录该内容

41 篇文章 0 订阅

订阅专栏

正则是一种基于文字匹配的查询模式，往往使用回溯算法，在文本内容很多的时候，会产生很大的运行成本。而且，在处理的过程中，很容易就因为一个小的符号的问题产生结果上的错误。

xpath是一个处理xml的工具包，针对的应用场景是处理一个结构化的xml文件。它使用节点树的概念对目标进行处理，查找一个xml文件中的信息的效率就是搜索树的效率。这样大大提高了搜索的效率，而且在进行条件查询时，能够提供//div[@class='']这种结构的条件赋值。

json是处理网页中javascrip标签中的格式化内容的处理工具。

clean的作用，是将Html中非格式化的一些标签处理格式化，比如说有一个<div>的开始标签，却漏掉了</div>标签的情形。这种情况会造成xpath执行时的错误。

因而，分析网页，抽取数据的流程是：先用htmlparser这个工具清理不规范的html数据（实际上这个工具可以处理抽取数据的功能，但比起xpath要功能上差些）；使用xpath找到符合自己所给条件的数据；对于javascript标签中的数据，用json去抽取。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
对“分析网页的过程及工具”的功能记录

正则是一种基于文字匹配的查询模式，往往使用回溯算法，在文本内容很多的时候，会产生很大的运行成本。而且，在处理的过程中，很容易就因为一个小的符号的问题产生结果上的错误。xpath是一个处理xml的工具包，针对的应用场景是处理一个结构化的xml文件。它使用节点树的概念对目标进行处理，查找一个xml文件中的信息的效率就是搜索树的效率。这样大大提高了搜索的效率，而且在进行条件查询时，能够提供//d
复制链接

扫一扫

专栏目录

uestcyao CSDN认证博客专家 CSDN认证企业博客

码龄15年

50: 原创

105万+: 周排名

39万+: 总排名

46万+: 访问

: 等级

4483: 积分

36: 粉丝

22: 获赞

16: 评论

28: 收藏

私信

关注

热门文章

分类专栏

最新评论

myeclipse的安装问题记录
慢慢来的小邵: 大佬那两个directory不能要写在一起吗？选在哪个盘有要求没？tomcat解压在哪里好呢？我这个问题太阔怜了信息: The Apache Tomcat Native library which allows optimal performance in production environments was not found on the java.library.path: D:\MyEclipse\binary\com.sun.java.jdk.win32.x86_1.6.0.013\bin;D:\MyEclipse\plugins\com.genuitec.eclipse.easie.tomcat.myeclipse_8.5.0.me201003121946\tomcat\bin 2019-5-28 12:57:35 org.apache.coyote.http11.Http11Protocol init 严重: Error initializing endpoint
python beautifulsoup的安装导入
makoudada: print "Unit tests have failed!" 跪求
python beautifulsoup的安装导入
makoudada: SyntaxError: Missing parentheses in call to 'print' 老铁，为什么键入python setup.py install会变成这样
python beautifulsoup的安装导入
makoudada: 老铁，怎样安装beautifulsoap啊
simplejson的安装和使用
星辰_mya: Linux下安装simplejson也差不多

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。