最新Python爬虫入门之爬虫解析提取数据的四种方法_爬取方法选择

2301_82243828

于 2024-05-03 14:23:24 发布

阅读量803

点赞数 14

分类专栏：程序员文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/2301_82243828/article/details/138415777

版权

程序员专栏收录该内容

186 篇文章 0 订阅

订阅专栏

link = i[‘href’]

print({‘标题’: title,

‘链接’: link

})

很常规的处理方式，抓取效果如下：
在这里插入图片描述
· 方式二：requests+BeautifulSoup+find_all进行信息提取

#find_all method import requests from bs4 import BeautifulSoup

headers = {‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.119 Safari/537.36’}

url = ‘’ Soup = BeautifulSoup(requests.get(url=url, headers=headers).text.encode(“utf-8”), ‘lxml’)

em = Soup.find_all(‘em’, attrs={‘class’: ‘f14 l24’})for i in em:

title = i.a.get_text()

link = i.a[‘href’]

print({‘标题’: title, ‘链接’: link

})

同样是requests+BeautifulSoup的爬虫组合，但在信息提取上采用了find_all的方式。效果如下：
在这里插入图片描述

方式三：requests+lxml/etree+xpath表达式

#lxml/etree method import requests from lxml import etree

headers = { ‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.119 Safari/537.36’}

url = ‘’ html = requests.get(url = url, headers = headers)

con = etree.HTML(html.text)

title = con.xpath(‘//em[@class=“f14 l24”]/a/text()’)

link = con.xpath(‘//em[@class=“f14 l24”]/a/@href’) for i in zip(title, link):

print({‘标题’: i[0],

‘链接’: i[1]

})

使用lxml库下的etree模块进行解析，然后使用xpath表达式进行信息提取，效率要略高于BeautifulSoup+select方法。这里对两个列表的组合采用了zip方法。效果如下：
在这里插入图片描述

方式四：requests+lxml/html/fromstring+xpath表达式

lxml/html/fromstring method import requests import lxml.html as HTML

headers = {‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.119 Safari/537.36’}

url = ‘’ con = HTML.fromstring(requests.get(url = url, headers = headers).text)

title = con.xpath(‘//em[@class=“f14 l24”]/a/text()’)

link = con.xpath(‘//em[@class=“f14 l24”]/a/@href’) for i in zip(title, link):

print({‘标题’: i[0],‘链接’: i[1]

})

跟方法三类似，只是在解析上使用了lxml库下的html.fromstring模块。抓取效果如下：
在这里插入图片描述
很多人觉得爬虫有点难以掌握，因为知识点太多，需要懂前端、需要python熟练、还需要懂数据库，更不用说正则表达式、XPath表达式这些。其实对于一个简单网页的数据抓取，不妨多尝试几种抓取方案，举一反三，也更能对python爬虫有较深的理解。长此以往，对于各类网页结构都有所涉猎，自然经验丰富，水到渠成。

爬取网页数据用正则表达式的话，可以直接从网页源代码文本中匹配，但出错率较高，且熟悉正则表达式的使用也比较难，需要经常翻阅文档。

实际爬取数据大多基于 HTML 结构的 Web 页面，网页节点较多，各种层级关系。可以考虑使用 Xpath 解析器、BeautifulSoup解析器、PyQuery CSS解析器抽取结构化数据，使用正则表达式抽取非结构化数据。

Xpath：可在 XML 中查找信息；支持 HTML 的查找；通过元素和属性进行导航，查找效率很高。在学习 Selenium 以及 Scrapy 框架中也都会用到。

BeautifulSoup：依赖于 lxml 的解析库，也可以从 HTML 或 XML 文件中提取数据。

PyQuery：Python仿照 jQuery 严格实现，可以直接解析 DOM 节点的结构，并通过 DOM 节点的一些属性快速进行内容提取。

对于爬取网页结构简单的 Web 页面，有些代码是可以复用的，如下所示：

from fake_useragent import UserAgent

随机产生请求头

ua = UserAgent(verify_ssl=False, path=‘fake_useragent.json’)

def random_ua():

headers = {

“Accept-Encoding”: “gzip”,

“User-Agent”: ua.random

}

return headers

伪装请求头，并可以随机切换，封装为函数，便于复用。

def scrape_html(url):

resp = requests.get(url, headers=random_ua())

print(resp.status_code, type(resp.status_code))

print(resp.text)

if resp.status_code == 200:

return resp.text

else:

logging.info(‘请求网页失败’)

请求网页，返回状态码为 200 说明能正常请求，并返回网页源代码文本。

关于Python技术储备

学好 Python 不论是就业还是做副业赚钱都不错，但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料，给那些想学习 Python 的小伙伴们一点帮助！

最后

Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习 Python 门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的 Python 学习资料，给那些想学习 Python 的小伙伴们一点帮助！

👉Python所有方向的学习路线👈

Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。

👉Python必备开发工具👈

工欲善其事必先利其器。学习Python常用的开发软件都在这里了，给大家节省了很多时间。

👉Python全套学习视频👈

我们在看视频学习的时候，不能光动眼动脑不动手，比较科学的学习方法是在理解之后运用它们，这时候练手项目就很适合了。

👉实战案例👈

学python就与学数学一样，是不能只看书不做题的，直接看步骤和答案会让人误以为自己全都掌握了，但是碰到生题的时候还是会一筹莫展。

因此在学习python的过程中一定要记得多动手写代码，教程只需要看一两遍即可。

👉大厂面试真题👈

我们学习Python必然是为了找到高薪的工作，下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料，并且有阿里大佬给出了权威的解答，刷完这一套面试资料相信大家都能找到满意的工作。

需要这份系统化学习资料的朋友，可以戳这里无偿获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

2301_82243828

关注

14
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
最新Python爬虫入门之爬虫解析提取数据的四种方法_爬取方法选择

Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习 Python 门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的 Python 学习资料，给那些想学习 Python 的小伙伴们一点帮助！
复制链接

扫一扫