爬虫
micromicrofat
Python | Go | Deep Learning
展开
-
【Xpath】使用following-sibling获取后面的同级节点
以下面html代码为例子,尝试使用xpath提取“2022年06月07日”关键点在于使用“following-sibling”提取后面的同级节点参考:http://xpather.com/原创 2022-06-07 09:18:25 · 750 阅读 · 0 评论 -
macOS上使用mitmproxy和安卓模拟器抓包
安装mitmproxy>>> brew install mitmproxy将会安装三个工具:mitmdump mitmproxy mitmwebmitmproxy:命令行界面,用于调试mitmweb:图形界面,用于调试mitmdump:对mitmproxy的封装,无交互界面,用于部署>>> mitmdump --versionMitmproxy: 6.0.2Python: 3.9.2OpenSSL: OpenSSL 1.1.1j 16原创 2021-03-06 15:59:23 · 891 阅读 · 0 评论 -
V2EX上关于python多线程、协程的性能讨论
https://www.v2ex.com/t/696184转载 2020-11-06 16:38:08 · 248 阅读 · 0 评论 -
xpath语法:不包含某属性
不包含id属性并且不包含class属性//tr[not(@id) and not(@class)]或//tr[not(@id) or not(@class)]参考:https://stackoverflow.com/a/2404138/7151777原创 2020-08-12 12:00:02 · 2149 阅读 · 0 评论 -
【0803】爬虫失败记录
在爬取一个需要登录的网站时,请求headers中包含一个关键参数‘token’,而经过搜索后发现,这个token是通过js生成,而非像cookie一样通过服务端返回的包进行设置。再进一步搜索后发现疑似生成该token的js代码 var referUUIDMaker = ((function (uuidRegEx, uuidReplacer) { return function () { return 'xxxxxxxx-xxxx-4xxx-yxxx-xxxxxxxxxxxx'.r原创 2020-08-03 14:17:04 · 224 阅读 · 0 评论 -
requests的get类型请求params参数中存在百分号‘%’的解决办法
在使用requests中难免需要对URL进行请求,今天遇到这样一条URL:http://127.0.0.1/?test=%25test凭经验,我使用requests.get进行请求,并把参数写入params中:>>> import requests>>> url = 'http://127.0.0.1'>>> params = { 'test':'%25test' }>>> r = requests.get(url,原创 2020-07-31 14:50:08 · 9235 阅读 · 0 评论 -
【7月24日】某期货网站新增反爬措施
7月24日开始某国内大型期货交易市场官方网站数据开始出现反爬措施(Cookie)该cookie有过期时间,大概几分钟,因而无法设置为固定cookie。由于是通过js生成,需要进行js逆向伪造cookie,故爬虫成本增加。建议更换数据源...原创 2020-07-27 09:13:56 · 195 阅读 · 0 评论 -
beautifulsoup获取同级标签
<p class="fp"> <span class="label">职能类别:</span> <a class="el tdn" href="https://jobs.51job.com/guangzhou/peixunjiangshi/">培训讲师</a> <a class="el tdn" href="https://jobs.51job.com/guangzhou/zhijijiaoshi/">职业技术教师</a&g原创 2020-07-26 19:55:42 · 1909 阅读 · 0 评论 -
requests获取到的网页源码中存在乱码的三个解决方法
>>> res = requests.get(html)>>> print(res.text)^&&*!!@#5%#从html的头部可见使用gbk字符集:<html><head> ... <meta http-equiv="Content-Type" content="text/html; charset=gbk"> ...方法一:>>> res.encoding = 'gbk原创 2020-07-25 17:01:12 · 1172 阅读 · 1 评论 -
requests大批量请求时连接、读取超时的解决办法
需要从5万+个url中下载图片,使用python的requests下载:# 省略for循环代码>>> requests.get(url, stream=True)发现在下载到几千幅的时候代码无被阻塞了,故添加超时时间>>> requests.get(url, stream=True, timeout=5)想添加超时重试>>> from urllib3.util.retry import Retry>>> from re原创 2020-07-07 11:49:23 · 3018 阅读 · 1 评论 -
某招聘网站爬虫遇到的坑:MeEwMD
想要爬取某招聘网站(zhilian),分析就业形势,但发现一个令人迷惑的东西:MeEwMD简单搜了一下发现这玩意儿天生就是为了反爬的,就我目前的水平来讲,几乎无解…参考:https://zhuanlan.zhihu.com/p/101013678原创 2020-06-29 21:51:14 · 446 阅读 · 0 评论 -
使用google-image-download爬取图像
最近做的一个目标检测模型需要使用大量图像进行训练,最方便的图像获取方式就是通过搜索引擎获取,而Google的搜索结果更适合。github上有不少开源的Google图像爬取工具,其中star数最多功能最强的就属google-image-download,其安装方式pip安装与编译安装,我为了省事,直接用pip安装>>> pip3 install google_images_do...原创 2020-02-16 23:43:46 · 4801 阅读 · 19 评论 -
关于微信公众号爬虫
从去年开始,一直有个爬虫项目,一直无法完成:微信公众号文章。最开始我通过一个付费获取授权的软件来爬取,而且使用后发现确实可行,但当时觉得比较贵(几百块/半年),而且需求不大,就暂时搁置了。后来又尝试过搜狗微信的方式,但搜狗微信的反爬措施也很多,比如频繁的验证码,甚至直接关闭了根据公众号搜文章的功能今天又想起这个事情,就又搜索了一番,可以基本得出结论:可以爬,但是代价很大很大,目前来看不值得。...原创 2020-02-01 18:40:29 · 1962 阅读 · 0 评论 -
Python3使用requests和requests_toolbelt上传文件
>>> import requests>>> from requests_toolbelt.multipart.encoder import MultipartEncoder>>> fields={>>> "Content-Disposition":"form-data",>>> ...原创 2020-01-10 11:11:47 · 1291 阅读 · 0 评论 -
requests添加max_retries
import requestsfrom urllib3.util.retry import Retryfrom requests.adapters import HTTPAdapters = requests.Session()retries = Retry(total=3, backoff_factor=0.1, stat...原创 2020-01-07 14:30:41 · 1648 阅读 · 0 评论 -
requests获取到的cookies数量不够的解决办法
在使用普通的requests.get或者requests.post来获取网站cookies的时候,可能会出现res.cookies.get_dict()后字典中cookies数量不够的情况,一种解决办法是使用session>>> session = requests.Session()>>> response = session.post(url = url...原创 2019-08-13 16:12:56 · 3415 阅读 · 1 评论