使用requests配合【lxml+xpath】爬取B2B网站

最新推荐文章于 2023-03-26 23:13:33 发布

搬砖的乔布梭

最新推荐文章于 2023-03-26 23:13:33 发布

阅读量1.8k

点赞数

分类专栏： Python爬虫完全攻略

本文链接：https://blog.csdn.net/u010986776/article/details/79250872

版权

Python爬虫完全攻略专栏收录该内容

16 篇文章 12 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了如何使用Python的requests库配合lxml和xpath进行B2B网站的数据爬取。首先导入相关类库，然后设置请求头以模拟浏览器行为。接着，逐步爬取网页数据并将其保存到文件中。get_one_page函数作为核心，负责抓取单页内容。最后，文章展示了实际的爬取效果。

摘要由CSDN通过智能技术生成

@导入类库

import requests
from lxml import etree
import time

@准备请求头，以伪装客户端浏览器

# 请求头，可以由F12页面控制台或fidder等抓包工具获取
header_base = {
    'Connection': 'keep-alive',
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36',