裁判文书网数据采集爬虫记录2023-03

又升级了,现在没法使用s41发布日期查数据了,

列表页docid也变成动态的了,过几个小时就会过期,

列表页也不返回发布时间了,原来列表页还能直接查500条,现在也不行了。

风控变的很严格了,动不动就封号,

再加上rs4,

虽然反爬加解密啥的没怎么变化,但是这么封号谁也受不了啊,,

目前一个账号查个几百条数据就废了,

md 

抓紧屯号

有没有大兄弟,能解决封号问题的,有偿

或者有采集需求的兄弟,可以商量一起搞啊

来个数据置换什么的,不香吗

另外,还有某大法宝的法规数据,咱也有

扣扣:MTE2MjE5NzI3OA==

需要Base64 在线编码解码 | Base64 加密解密 - Base64.us

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 16
    评论
好的,以下是生成爬虫代码的Python代码: ```python import requests from bs4 import BeautifulSoup # 构造请求头部,模拟浏览器访问 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} # 构造请求参数,设置爬取的页数 params = { 'coltype': '1', 'Page': '1', 'number': 'UZ3M5T7Z', 'guid': '6c6ce4c0-3a4d-4b19-9a64-a5ed03c2a6b7' } # 发送get请求并获取响应 response = requests.get('http://wenshu.court.gov.cn/List/ListContent', headers=headers, params=params) # 解析响应的html内容 soup = BeautifulSoup(response.text, 'html.parser') # 获取所有的文书列表 doc_list = soup.select('.dataItem') # 构造爬取数据的函数 def spider(): for doc in doc_list: # 获取文书id和文书详情页链接 doc_id = doc['data-rowid'] doc_url = 'http://wenshu.court.gov.cn/CreateContentJS/CreateContentJS.aspx?DocID=' + doc_id # 发送get请求并获取响应 doc_response = requests.get(doc_url, headers=headers) # 解析响应的html内容 doc_soup = BeautifulSoup(doc_response.text, 'html.parser') # 获取文书内容 content = doc_soup.select('#DivContent')[0].text.strip() # 输出文书内容 print(content) # 调用爬取数据的函数 spider() ``` 这段代码是通过模拟浏览器访问裁判文书的列表页,获取文书id和文书详情页链接,再通过访问文书详情页,获取文书内容。你可以根据自己的需求对代码进行修改。
评论 16
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值