自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 python爬取国家法律法规数据库

从列表进入内容,发现每条内容文件对应一个id,这个id是由列表页传过来的,从列表获取拼出内容的url,然后进行接口爬取内容的文件路径path,再下载文件,解析文件。涉及文件下载,word解析,得到带标签和不带标签的内容,雪花算法非自增id,数据入库去重。发现导航栏有不同分类,f12查看网络接口,发现每个分类对应一个参数。爬取的文件数据下载到文件夹中,其他数据存储到数据库中。

2024-09-03 15:44:22 324

原创 python爬取国家标准文件

1.翻页爬取接口2.数据列表对页面爬取3.爬取接口获得行业类型4.文件下载页面需要图片验证,模拟浏览器完成验证。

2024-09-02 14:47:22 739

原创 爬取网页/接口/selenium时遇见的问题及解决方法

1.若报错:requests.exceptions.SSLError: HTTPSConnectionPool(host='XXX', port=443),在请求时添加代码verify=False。20. 若报错requests.exceptions.SSLError: [SSL: SSL_NEGATIVE_LENGTH] dh key too small (_ssl.c:600)7.若网页内容是下载文件,下载后文件打不开有损坏,可能是url不对。8.图片路径对,但是页面不显示,在src=””前加。

2024-08-31 15:31:47 651

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除