爬虫
写Bug 的大潘
知其然,而后知其所以然,加油呀!
展开
-
pyppeteer 坑:page.on(‘response was never awaited Enable tracemalloc to get the object allocation trac
异常回顾:python版本:3.9pyppeteer版本:0.2.6pyee版本:8.2.2实现响应拦截的功能async def intercept_response(response): # resourceType = response.request.resourceType # print(resourceType) if 'get-list' in response.url: print(response.url) # print(原创 2022-01-19 18:27:10 · 2722 阅读 · 0 评论 -
爬虫中遇到POST请求中表单数据出现重复参数时的处理方式
如下图 form data中出现的参数 disclosureSubtype[] needFields[] ,出现了至少两次那么爬虫中模拟请求时如何使用呢:一下两种方式均已测试可用(使用的python测试)格式一data = [ ('disclosureSubtype[]', '9503-1004'), ('disclosureSubtype[]', '9504-2106'), ('page', '0'), ('companyCd', ''), ('isNewThree',.原创 2021-11-19 16:06:41 · 1399 阅读 · 2 评论 -
chrome / chromium 常用命令 -- 持续收集欢迎留言补充交流
网址输入框输入以下命令命令及功能chrome://version/ 查看浏览器基本信息原创 2021-06-24 18:44:18 · 180 阅读 · 0 评论 -
xpath获取不包含某一子标签的a标签
获取子标签没有 img 标签的a标签xpath('//li//a[not(img)]')原创 2021-01-25 16:39:34 · 2709 阅读 · 1 评论 -
python 爬虫 自动识别相应编码
res = s.get(urlTemp, headers=headers, timeout=5)res.encoding = res.apparent_encoding# html_ = etree.HTML(res.content.decode('gbk'))print(res.text)原创 2021-01-25 10:43:31 · 565 阅读 · 0 评论 -
pyppeteer 异常 RuntimeError: There is no current event loop in thread ‘Thread-3‘.
创建子线程 调用pyppeteer时 报错RuntimeError: There is no current event loop in thread 'Thread-3'.pyppeteer启动代码loop = asyncio.get_event_loop()loop.run_until_complete(main(name, password, keyword, isGetDefaultSKU)) # 将协程加入到事件循环looploop.close()解决办法...原创 2020-07-21 15:44:12 · 3896 阅读 · 1 评论 -
pyppeteer 异常 ValueError: signal only works in main thread
在flask 中创建子线程 调用 pyppeteer程序时 报错ValueError: signal only works in main thread直译过来解决办法创建浏览器对象时 添加三个字段'handleSIGINT':False,'handleSIGTERM': False,'handleSIGHUP': False,这里有别人的回答https://stackoverflow.com/questions/53679905/running-pypupete...原创 2020-07-21 15:35:55 · 3684 阅读 · 2 评论 -
爬虫返回数据 16进制编码问题
昨天分析爬虫接口时 发现返回数据 json转化时出错 经过检查发现问题是 json字符串中有 \x3E、\x2F这种编码字符串,开始解决思路就是把16进制转化为普通字符串结果不行原因编码问题 本来这些返回数据是需要前端js 去解析的\x 开头的16进制数据 是js的表示方法0x 开头 才是python 16进制的表示方法所以返回的数据不处理 直接用python 去解析会出现异常解决办法在 处理之前 先对返回的数据 进行编码格式处理res = response.content.de.原创 2020-07-02 12:04:46 · 2033 阅读 · 0 评论 -
dump failed because no AndroidManifest.xml found
解决办法:将apk名字改为英文原创 2019-12-22 14:25:32 · 3759 阅读 · 1 评论 -
Scrapy框架-xpath用法
def parse_content(self,response): title = response.xpath("//h2[@id='activity-name']/text()").extract_first() print(title.strip())response.xpath("//h2[@id='activity-name']/text()"...原创 2019-07-25 11:45:13 · 715 阅读 · 0 评论 -
通过rsa 的模量与指数 生成对应的rsa公钥
passwordRSA: function() { if (this.isMsgLogin) return !1; var t = $("#J_Exponent").val() , i = $("#J_Module").val(); ...原创 2019-07-07 18:41:51 · 1385 阅读 · 0 评论 -
Python 随机生成 范围内 经纬度 坐标信息
import randomimport math# 参数含义 # base_log:经度基准点, # base_lat:维度基准点, # radius:距离基准点的半径def generate_random_gps(base_log=None, base_lat=None, radius=None): radius_in_degrees = radius / 111300...原创 2019-06-24 08:54:18 · 6390 阅读 · 4 评论 -
python 模拟登录 被重定向 获取不到cookie问题
在requests请求时 加入参数 allow_redirects=False 即可res = requests.post(url_login,headers=headers,data=from_data,allow_redirects=False)原创 2019-06-20 13:09:58 · 3010 阅读 · 0 评论 -
Python3 根据 模量与指数 生成公钥,并利用公钥实现 rsa 加密
# _*_coding:utf-8 _*_#@Time :2019/6/13 10:51#@Author :Dapan#@Email : 248312738@qq.comimport rsadef get_rsa_result(e,n,content): """ 根据 模量与指数 生成公钥,并利用公钥对内容 rsa 加密返回结果 :param e:指...原创 2019-06-13 13:28:37 · 1086 阅读 · 0 评论 -
python3 URL编码与解码-demo
平时做爬虫时不免接触到url编码与解码相关的一些东西,这里姐做一下总结,供自己以后查阅使用,如果能帮到大家,那就甚是兴奋了!# python3 与python2有一些区别,自己使用的是python3 这里需要导入以下的模块from urllib.parse import quote,unquotetext = "丽江"print(quote(text,'utf-8')) # ...原创 2019-06-29 20:23:45 · 673 阅读 · 0 评论 -
Scrapy框架-setting.py文件详解
常用参数含义:# -*- coding: utf-8 -*- # Scrapy settings for demo1 project## For simplicity, this file contains only settings considered important or# commonly used. You can find more settings consultin...原创 2019-04-07 17:39:33 · 473 阅读 · 0 评论