pumpkin0_0-CSDN博客

原创 python爬取国家法律法规数据库

从列表进入内容，发现每条内容文件对应一个id，这个id是由列表页传过来的，从列表获取拼出内容的url，然后进行接口爬取内容的文件路径path，再下载文件，解析文件。涉及文件下载，word解析，得到带标签和不带标签的内容，雪花算法非自增id，数据入库去重。发现导航栏有不同分类，f12查看网络接口，发现每个分类对应一个参数。爬取的文件数据下载到文件夹中，其他数据存储到数据库中。

2024-09-03 15:44:22 324

原创 python爬取国家标准文件

1.翻页爬取接口2.数据列表对页面爬取3.爬取接口获得行业类型4.文件下载页面需要图片验证，模拟浏览器完成验证。

2024-09-02 14:47:22 739

1.若报错：requests.exceptions.SSLError: HTTPSConnectionPool(host='XXX', port=443)，在请求时添加代码verify=False。20. 若报错requests.exceptions.SSLError: [SSL: SSL_NEGATIVE_LENGTH] dh key too small (_ssl.c:600)7.若网页内容是下载文件，下载后文件打不开有损坏，可能是url不对。8.图片路径对，但是页面不显示，在src=””前加。

2024-08-31 15:31:47 651

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

pumpkin_0的博客

原创 python爬取国家法律法规数据库

原创 python爬取国家标准文件

原创爬取网页/接口/selenium时遇见的问题及解决方法

空空如也

空空如也

原创 python爬取国家法律法规数据库

原创 python爬取国家标准文件

原创 爬取网页/接口/selenium时遇见的问题及解决方法

空空如也

空空如也

原创爬取网页/接口/selenium时遇见的问题及解决方法