网页爬虫 python-Python爬虫解析网页的4种方式

最新推荐文章于 2024-04-01 13:30:49 发布

weixin_37988176

最新推荐文章于 2024-04-01 13:30:49 发布

阅读量196

点赞数

文章目录

爬虫的价值

正则表达式

requests-html

BeautifulSoup

lxml的XPath

爬虫的价值

常见的数据获取方式就三种：自有数据、购买数据、爬取数据。用Python写爬虫工具在现在是一种司空见惯的事情，每个人都希望能够写一段程序去互联网上扒一点资料下来，用于数据分析或者干点别的事情，我们知道，爬虫的原理无非是把目标网址的内容下载下来存储到内存中，这个时候它的内容其实是一堆HTML，然后再对这些HTML内容进行解析，按照自己的想法提取出想要的数据，所以今天我们主要来讲四种在Python中解析网页HTML内容的方法，各有千秋，适合在不同的场合下使用。

正则表达式正则表达式(regular expression)描述了一种字符串匹配的模式（pattern），可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等

正则的好处是编写麻烦，理解不容易，但是匹配效率很高，不过时至今日有太多现成的HTMl内容解析库之后，我个人不太建议再手动用正则来对内容进行匹配了，费时费力

如果大家要学习可以参考：正则传送门(https://www.runoob.com/regexp/regexp-syntax.html)

requests-html

这个库其实是我个人最喜欢的库，作则是编写requests库的网红程序员 Kenneth Reitz，他在requests的基础上加上了对html内容的解析，就变成了requests-html这个库了

我喜欢用requests-html来解析内容的原因是因为作者依据帮我高度封装过了，连请求返回内容的编码格式转换也自动做了，完全可以让我的代码逻辑简单直接，更专注于解析工作本身。

安装与使用： pip install requests-html

BeautifulSoup

大名鼎鼎的 BeautifulSoup库，出来有些年头了，在Pyhton的HTML解析库里属于重量级的库，其实我评价它的重量是指比较臃肿，大而全，而且依赖Python，适用场景受到了局限性

BeautifulSoup解析内容同样需要将请求和解析分开，从代码清晰程度来讲还将就，不过在做复杂的解析时代码略显繁琐，总体来讲可以用，看个人喜好吧。

安装与使用： pip install beautifulsoup4

lxml的XPath

lxml这个库同时支持HTML和XML的解析，支持XPath解析方式，解析效率挺高，不过我们需要熟悉它的一些规则语法才能使用，例如下图这些规则。

安装与使用： pip install lxml

weixin_37988176

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
网页爬虫 python-Python爬虫解析网页的4种方式

文章目录爬虫的价值正则表达式requests-htmlBeautifulSouplxml的XPath爬虫的价值常见的数据获取方式就三种：自有数据、购买数据、爬取数据。用Python写爬虫工具在现在是一种司空见惯的事情，每个人都希望能够写一段程序去互联网上扒一点资料下来，用于数据分析或者干点别的事情，我们知道，爬虫的原理无非是把目标网址的内容下载下来存储到内存中，这个时候它的内容其实是一堆HTML，...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。