Python爬虫新手教程：知乎文章图片爬取器

最新推荐文章于 2024-08-29 21:24:41 发布

Python编程KK

最新推荐文章于 2024-08-29 21:24:41 发布

阅读量379

点赞数

文章标签： Python Python爬虫后端编程语言

本文链接：https://blog.csdn.net/meiguanxi7878/article/details/100783375

版权

本文介绍了如何编写一个Python爬虫来抓取知乎文章中的图片。首先，通过用户输入的问题ID获取相关页面信息，接着利用正则表达式从JSON数据中匹配图片URL，并下载保存到指定文件夹。在代码实现过程中，注意到了一个小BUG，需要手动修改pic3为pic2，可能与网络环境有关。最后，提供了Python学习资源和交流群，帮助编程爱好者提升技能。

摘要由CSDN通过智能技术生成

1. 知乎文章图片爬取器之二博客背景

昨天写了知乎文章图片爬取器的一部分代码，针对知乎问题的答案json进行了数据抓取，博客中出现了部分写死的内容，今天把那部分信息调整完毕，并且将图片下载完善到代码中去。

首先，需要获取任意知乎的问题，只需要你输入问题的ID，就可以获取相关的页面信息，比如最重要的合计有多少人回答问题。
问题ID为如下标红数字

编写代码，下面的代码用来检测用户输入的是否是正确的ID，并且通过拼接URL去获取该问题下面合计有多少答案。

在学习过程中有什么不懂得可以加我的
python学习交流扣扣qun，784758214
群里有不错的学习视频教程、开发工具与电子书籍。
与你分享python企业当下人才需求及怎么从零基础学习好python，和学习什么内容
import requests
import re
import pymongo
import time
DATABASE_IP = '127.0.0.1'
DATABASE_PORT = 27017
DATABASE_NAME = 'sun'
client = pymongo.MongoClient(DATABASE_IP,DATABASE_PORT)
db = client.sun
db.authenticate("dba", "dba")
collection = db.zhihuone  # 准备插入数据

BASE_URL = "https://www.zhihu.com/question/{}"
def get_totle_answers(article_id):
    headers = {
        "user-agent": "需要自己补全 Mozilla/5.0 (Windows NT 10.0; WOW64)&