- 博客(10)
- 收藏
- 关注
原创 mumu配置
一. 模拟器安装相关1. 下载mumu模拟器:https://mumu.163.com/下载好手游助手,有点击下载mumu模拟器的提示, 默认最新版2. 安装微信:https://weixin.qq.com/cgi-bin/readtemplate?lang=zh_CN&t=page/faq/android/801/index&faq=android_801选择下载32位版本3. 打开mumu的root权限4. 安装 xposed.apk5. 安装 jus..
2021-03-19 13:21:24 3064
原创 flask group_by 不能使用的问题
https://limh.me/post-22.html/etc/my.cnf[mysqld]sql_mode = STRICT_TRANS_TABLES,NO_ZERO_IN_DATE,NO_ZERO_DATE,ERROR_FOR_DIVISION_BY_ZERO,NO_AUTO_CREATE_USER,NO_ENGINE_SUBSTITUTION主要是去除ONLY...
2019-05-06 14:51:13 841
原创 mac下Appnium Desktop + Genymotion 爬虫
1. 安装 java https://blog.csdn.net/qq_23892379/article/details/794174852. 安装 appnium desktop, 这个资源挺多的。 https://blog.csdn.net/linlu_home/article/details/791722083. 安装android studio, https://bl...
2018-09-04 19:22:07 1038
原创 selenium + chromedriver 被反爬的解决方法
问题背景:这个问题是在爬取某夕夕商城遇到的问题,原本的方案是用selenium + chromedriver + mitmproxy开心的刷,但是几天之后,发现刷不出来了,会直接跳转到登陆界面(很明显,是遭遇反爬了)讲实话,这还是第一次用硒被反爬的,于是进行大规模的测试对比。 同台机器,用铬浏览器正常访问是不用跳转到登陆界面的,所以不是IP的问题。再用提琴手抓包对比了一下两个请求头,请求头...
2018-09-01 12:57:19 40150 32
原创 【爬虫】 使用mongodb做去重集合
背景:最初是用redis数据库中的set来做去重集合的,但是因为url的量级在亿以上,redis内存飙升到了22G,服务器无法承受。于是将集合都搬到了mongodb中解决方法:1. 通过脚本对redis中的集合进行迁移, <1 对url进行哈希,缩短长度,节省空间。 <2 在插入数据到mongo的时候, 要写好索引 (为了加快遍历速度,因为每访问一次ur...
2018-08-30 18:11:32 1508
原创 selenium + chromedriver 在centos 上的使用(假界面, 不使用headless)
1. 安装Xvfb : yum install -y Xvfb2. 安装 chromedriver: https://blog.csdn.net/mercury0712/article/details/802944333. 查看下chrome的版本, 下载对应的chromedriver版本 : https://www.cnblogs.com/dan-baishucaizi/p/90...
2018-08-30 15:24:50 783 1
原创 chromedriver + headless + proxy
这个时刻必须写个博客记录一下!!! 问题:爬取某网站需要用到 chromedriver + mitmproxy , 但是有个致命的问题就是加入headless和proxy参数后,代理一直会出错,其实就是证书的问题。 解决:根据以上问题,进行了很多搜索,测试。 但是有很多版本的答案其实都是不能用的,问题还是没有得到解决。最终在chromium上找到了一个标准答案。下面的代码转自:ht...
2018-08-29 18:08:19 4075 1
原创 scrapy中request的指纹生成
if include_headers: include_headers = tuple(to_bytes(h.lower()) for h in sorted(include_headers)) cache = _fingerprint_cache.setdefault(request, {}) ...
2018-05-07 16:35:08 2519
原创 curl 如何支持 SSL,https
这是入职后遇到的问题,之前从来没有使用过curl的。运行之前公司的一个项目一直出错,搞了好久才知道是curl的问题,于是查看了一下curl的信息,原来是不支持HTTPS的:于是尝试着重装curl,但是curl默认是不支持SSL的,根据百度的各种教程,于是有下载了openssl,并对curl进行了关联,试了几次,还是不可以。curl的配置信息里还是不支持S
2017-09-14 18:23:22 10558
转载 9-11 python中pycurl模块学习
可见pycurl是十分强大和简洁的,只是要熟悉它的很多属性,下面来看一些常用的import pycurlc = pycurl.Curl()c.setopt(pycurl.URL,'http://www.baidu.com')c.setopt(pycurl.MAXREDIRS,5)c.setopt(pycurl.CONNECTTIMEOUT,60)c.setopt(pycurl.TIME
2017-09-11 17:58:29 279
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人