IT宅男利用Python网络爬虫抓取百度贴吧评论区图片和视频（实战篇）

最新推荐文章于 2023-10-05 23:24:44 发布

Python654

最新推荐文章于 2023-10-05 23:24:44 发布

阅读量3.3k

点赞数 1

分类专栏： Python 网络爬虫 Python爬虫文章标签： python 编程语言爬虫程序人生经验分享

本文链接：https://blog.csdn.net/Python654/article/details/106158764

版权

本文介绍了如何使用Python网络爬虫抓取百度贴吧的评论区图片和视频。通过设置http请求头，绕过反爬措施，使用Chrome的XPath插件分析网页结构，提取图片和视频链接，最终实现保存到本地文件。

摘要由CSDN通过智能技术生成

【一、项目背景】

百度贴吧是全球最大的中文交流平台，你是否跟我一样，有时候看到评论区的图片想下载呢？或者看到一段视频想进行下载呢？

今天，小编带大家通过搜索关键字来获取评论区的图片和视频。

【二、项目目标】

实现把贴吧获取的图片或视频保存在一个文件。

【三、涉及的库和网站】

1、网址如下：

https://tieba.baidu.com/f?ie=utf-8&kw=吴京&fr=search

2、涉及的库：requests、lxml、urrilb

【四、项目分析】

1、反爬措施的处理

前期测试时发现，该网站反爬虫处理措施很多，测试到有以下几个：

（1）直接使用requests库，在不设置任何header的情况下，网站直接不返回数据。

（2）同一个ip连续访问40多次，直接封掉ip，起初我的ip就是这样被封掉的。为了解决这两个问题，最后经过研究，使用以下方法，可以有效解决。获取正常的 http请求头，并在requests请求时设置这些常规的http请求头。

2.如何实现搜索关键字？

通过网址我们可以发现只需要在kw=() ，括号中输入你要搜索的内容即可。这样就可以用一个{}来替代它，后面我们在通过循环遍历它。

【五、项目实施】

1、创建一个名为BaiduImageSpider的类，定义一个主方法main和初始化方法init。导入需要的库。

import requests
from lxml import etree
from urllib import parse
class BaiduImageSpider(object):
    def __init__(self, tieba_name):
        pass
    def main(self):

最低0.47元/天解锁文章

Python654

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
IT宅男利用Python网络爬虫抓取百度贴吧评论区图片和视频（实战篇）

【一、项目背景】百度贴吧是全球最大的中文交流平台，你是否跟我一样，有时候看到评论区的图片想下载呢？或者看到一段视频想进行下载呢？今天，小编带大家通过搜索关键字来获取评论区的图片和视频。【二、项目目标】实现把贴吧获取的图片或视频保存在一个文件。【三、涉及的库和网站】1、网址如下：https://tieba.baidu.com/f?ie=utf-8&kw=吴京&fr=search2、涉及的库：requests、lxml、urrilb【四、项目分析】
复制链接

扫一扫

专栏目录