某商标局公告抓取思路总结爬虫过无限debugger
某商标局公告抓取思路总结爬虫过无限debugger
目标地址:aHR0cDovL3dzZ2cuc2JqLmNuaXBhLmdvdi5jbjo5MDgwL3RtYW5uL2FubkluZm9WaWV3L2FublNlYXJjaC5odG1s
1:查询公告期号为1的(这里有个无线debugger)(直接右键 nerver parse here)或者 如下图表点一下
展示内容为:
把相关代码copy下来本地调试 分析流程 至于怎么分析 就不说了 说不清楚的
然后模拟这个请求得到异步加载的数据列
IGh0dHA6Ly93c2dnLnNiai5jbmlwYS5nb3YuY246OTA4MC90bWFubi9hbm5JbmZvVmlldy9hbm5TZWFyY2hERy5odG1sPwog
最后在模拟详情页请求得到详情页数据
模拟列表页代码
"""
部分代码已经省略
"""
form_data = {'page': '1',
'rows': '20',
'annNum': '1',
'annType': '',
'tmType': '',
'coowner': '',
'recUserName': '',
'allowUserName': '',
'byAllowUserName': '',
'appId': '',
'appIdZhiquan': '',
'bfchangedAgengedName': '',
'changeLastName': '',
'transferUserName': '',
'acceptUserName': '',
'regName': '',
'tmName': '',
'intCls': '',
'fileType': '',
'totalYOrN': 'false',
'appDateBegin': '',
'appDateEnd': '',
'agentName': ''}
base_url = 'aHR0cDovL3dzZ2cuc2JqLmNuaXBhLmdvdi5jbjo5MDgwL3RtYW5uL2FubkluZm9WaWV3L2FublNlYXJjaERHLmh0bWw='
response = session.post(base_url, data=form_data, headers=headers, cookies=goN9uW4i0iKzS)
模拟详情页代码
"""
部分代码已经省略
"""
url = 'aHR0cDovL3dzZ2cuc2JqLmNuaXBhLmdvdi5jbjo5MDgwL3RtYW5uL2FubkluZm9WaWV3L2ltYWdlVmlldy5odG1s'
data = {'id': res.text, 'pageNum': lis["page_no"], 'flag': 1}
headers = {
'Accept': 'application/json, text/javascript, */*; q=0.01',
'Accept-Encoding': 'gzip, deflate',
'Accept-Language': 'zh-CN,zh;q=0.9',
'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
'Host': 'd3NnZy5zYmouY25pcGEuZ292LmNuOjkwODAKIA==',
'Origin': 'aHR0cDovL3dzZ2cuc2JqLmNuaXBhLmdvdi5jbjo5MDgwCiA=',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.60 Safari/537.36',
}
goN9uW4i0iKzS.update(
{'goN9uW4i0iKzT':
js_code.call('get_cookie', text.replace(repl_str, '</html>')).split(';')[1].split('=')[1]})
cookies=';'.join(['{}={}'.format(k,v) for k,v in goN9uW4i0iKzS.items() if k!='enable_undefined'])
headers.update({'Cookie':cookies})
res = session.post(url, data=data, headers=headers)
res.encoding = cchardet.detect(res.content)['encoding']
if 'imaglist' in res.text:
print(res.json())
关于本地调试瑞数 直接代码下载下来 没有debugger那就自己添加(哈哈爬虫逆向害怕无限debugger 那反爬虫不也害怕debugger吗)
以上内容仅供参考及学习交流
路过的大佬嘴下留情
点赞关注不迷路