第一个成功爬虫，包括异常重连、断点续抓等等，运行很稳定，激动

光_辉

已于 2023-08-22 13:37:06 修改

阅读量41

点赞数

分类专栏： python各种探索与踩坑文章标签： python

于 2020-12-26 02:28:39 首次发布

本文链接：https://blog.csdn.net/raozhongbo/article/details/111714487

版权

21 篇文章 14 订阅 ¥19.90 ¥99.00

订阅专栏

博主分享了首次成功编写爬虫的经历，该爬虫用于抓取商车网的机动车公告数据。程序分为两步，第一步抓取车型代码，第二步抓取字段内容，实现了异常中断重连和断点续抓功能，确保稳定性。代码示例分别展示了不同场景的使用方式，为后续爬虫开发提供了参考。

摘要由CSDN通过智能技术生成

我写了人生中第一个爬虫程序，很成功，开心。

第一步抓取所有的车型代码，存到一个文件里，这个文件可以支撑后续进一步访问每个车型的连接，并且抓取其内容。

我写了两个，场景有所不同

主要是用于我可以人工通过bianhao这个list来设定公告批次的，方便集中抓一批下来。但是存在的问题就是容易跑死，这个程序里没有加中断重连的机制，

from bs4 import BeautifulSoup
from lxml import etree
import urllib.request
import re
import requests
import time
import datetime

#定义一个函数，抽取页面的页码数
<

了解本专栏

关注

专栏目录