p爬虫
文章平均质量分 73
风华浪浪
这个作者很懒,什么都没留下…
展开
-
monkeyrunner(草稿)
monkeyrunner 命令详解、api 详解monkeyrunner APIManbyBuaner:这个类提供了用于连接monkeyrunner和设备或模拟器的方法,它还提供了为monkeyrunner即本创建Ut界面的一些价数。MonkeDevice优表一个设备或模拟器,这个类为安装和载包开启Activity、发送按键和触摸事性、运行测试组等提供了方法。MonioeyImage这个类提供了庙妮屏幕的方法。这个炎为截图、将位图转换成各种格式、对比两个Wonkejomage8 将image保存到文原创 2020-12-04 13:40:53 · 143 阅读 · 0 评论 -
安卓7.0以上抓HTTPS包的工具
一、背景爬虫抓包时经常遇到https的包,此时装了证书仍然无法抓到https的包,出现了此等错误unknown、Tunnel to ,网上各种都是一大抄,没有场景,没有原因。上去就是干。原因是安卓7.0以后,不让随便抓包了:https://developer.android.com/training/articles/security-config.html二、解决方案使用 VirtualXposed+JustTrustMe 来绕过SSL验证,来实现抓包需求Xposed是一个框架,它可以改变系统和转载 2021-05-07 11:13:12 · 1722 阅读 · 0 评论 -
python爬虫的重定向问题(301,302)
重定向问题在使用python爬虫的过程中难免会遇到很多301,302的问题。他们出现时,很大程度的影响到我们的爬虫速度和信息的准确性。下面针对不同的模块给出不同的解决方案。使用requests模块爬虫使用requests模块遇到301和302问题时,def yunsite(): 'url' headers = {'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0转载 2020-12-12 18:49:54 · 3729 阅读 · 0 评论 -
最新版抖音去水印源码
请不要用于商业,谢谢!import reimport requestsclass Douyin(object): def __init__(self): self.headers = { 'user-agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 10_3_1 like Mac OS X) AppleWebKit/603.1.30 (KHTML, like Gecko) Version/10.0 Mobile/1转载 2020-12-12 18:44:53 · 1490 阅读 · 0 评论 -
monkeyrunner操作手机
from com.android.monkeyrunner import MonkeyRunner as mrfrom com.android.monkeyrunner import MonkeyDevice as mdfrom com.android.monkeyrunner import MonkeyImage as mifrom com.android.monkeyrunner.recorder import MonkeyRecorder as recorderfrom com.androi原创 2020-12-07 04:53:12 · 560 阅读 · 0 评论 -
python 下载文件进度条
进度条import timeimport requestsdef downloader(url, path, title): start = time.time() size = 0 res = requests.get(url, stream=True) chunk_size = 1024 # 每次下载数据大小 content_size = int(res.headers["content-length"]) # 总大小 if res.status转载 2020-09-16 14:38:19 · 1208 阅读 · 4 评论 -
Auto.js环境的安装与配置
1.手机端的安装预配置下载链接: https://hyb1996.github.io/AutoJs-Docs/#/2.电脑端环境安装与配置1.打开手机usb调试权限2.打开指针位置在这里插入代码片原创 2020-07-12 11:11:27 · 2783 阅读 · 0 评论 -
python之BeautifulSoup 简单实用
常用html_doc = """ <html><head><title>The Dormouse's story</title></head> <body> <p class="title"><b>The Dormouse's story</b></p> <p class="story">Once upon a time there were转载 2020-05-24 13:57:42 · 261 阅读 · 0 评论 -
windos部署scrapyd部署scrapy
安装pip install scrapydpip install scrapyd-client测试 (终端输入scrpayd)scrpayd2.增加文件scrapyd-deploy 新增同名文件 scrapyd-deploy.bat左侧项目的项目环境python绝对位置, 右侧为同级目录下scrapyd-deploy@echo off"C:\Users\Administrator\AppData\Local\Temp\py_tornado\Scripts\python.exe"..转载 2020-05-18 01:48:40 · 244 阅读 · 0 评论 -
python 日期与时间戳相互转换
日期转时间戳import timet = '2020-4-06 00:00:00's_t = time.strptime(t, "%Y-%m-%d %H:%M:%S") # 返回元祖mkt = int(time.mktime(s_t))print(mkt)1586102400时间戳转日期t2 = 1586102400s_l = time.localtime(t2)ts =...原创 2020-04-06 02:10:27 · 20473 阅读 · 1 评论 -
appium简单安装
安装地址 https://github.com/appium/appium-desktop/releases/tag/1.7.0下载地址安装步骤为所有用户安装(此为服务端)开始运行原创 2019-07-25 09:23:41 · 180 阅读 · 0 评论 -
夜深模拟器安装
点击下载https://www.yeshen.com/2.点击安装,傻瓜式安装下一步, 下一步安装完成立即启用,默认创建一个手机浏览器3.打开默认手机模拟器(已启动,占用内存223MB,据情况而定)4.展示情况如下==============================================夜神分为模拟器与多开器打开夜夜神多开器,显示正在运行的模...原创 2019-07-25 09:15:19 · 387 阅读 · 0 评论 -
mitmproxy
Windowspip install mitmproxy查看版本mitmproxy --versionmitmproxy --versionError: mitmproxy's console interface is not supported on Windows. You can run mitmdump or mitmweb instead.mitmproxy lini...原创 2019-08-12 11:28:17 · 583 阅读 · 0 评论 -
requests.exceptions.ConnectionError:HTTPSConnectionPool(host
requests.exceptions.ConnectionError: HTTPSConnectionPool(host='127.0.0.1', port=443): Max retries exceeded with url: /?cdn=nohost (Caused by NewConnectionError('<urllib3.connection.VerifiedHTTP...原创 2019-07-01 11:46:41 · 111254 阅读 · 18 评论 -
UnicodeEncodeError: ‘utf-8‘ codec can‘t encode characters in position 10-11: surrogates not allowed
出现这个问题是里面有非法字符情况一无法保存到数据库, 因为 emojji不是四个字节,所以保存不到,修改utf8编码为utf8mb4CHARSET=utf8mb4;情况二(快他妈难哭了)#熊二来电 狗熊来电原创 2019-07-22 17:14:59 · 6777 阅读 · 3 评论 -
如何获取app的appactivity, appPackage (包名,入口)
如何获取android app的Activity网上很多教程,八仙过海,各显其法。有些不得要领,有些过于麻烦,找寻合适有缘的,浪费大把时间,坑爹呀!最好还没找到,主要怪我技术菜如狗,现总结几个。应用场景 自动化测试,爬虫1.启动手机被测app2.启动手机被测app3.打开DOS环境,输入命令:方法一 adb shell dumpsys window w | findstr \/ |...原创 2019-08-13 19:46:45 · 1109 阅读 · 0 评论 -
mitmproxy证书装不上以与其它抓包常见问题、PC端如何调试等
应用场景自动化测试、爬虫解决办法查看开发者模式是否装开启给手机设置个锁屏密码(很多由此原因)不要使用手机自带的浏览器,可能不支持。可以使用百度浏览器,进行下载安装(这也是个重要原因)浏览器输入http://mitm.it 选择适配平台即可...原创 2019-09-02 13:14:59 · 27876 阅读 · 3 评论 -
appium
除了以上比较常用的方法外,UIAutomator还支持其他一些方法,比如根据控件属性是否可点击可聚焦可长按等来缩小要定位的控件的范围,具体使用方法不一一列举(checked,clickable,focesed…TouchAction的原理是讲一系列的动作放在一个链条中,然后将该链条传递给服务器。(2)查找某一个语言环境对应的字符串文件Strings.xml内数据。(1)获取默认系统语言对应的Strings.xml文件内的数据。(3)获取当前activity,比如(.ApiDemos)转载 2019-09-29 19:42:09 · 341 阅读 · 0 评论 -
爬虫数据保存到MongoDB
打开MongoDB服务器打开MongoDB服务器 sudo mongod启动MongoDB客户端#新开终端输入mongo #启动MongoDB客户端exit/ctrl+c #退出客户端查询数据库show dbs使用数据库use 数据库名字#如果没有此数据库,需要创建数据库。#方法:use 数据库名字 #db.名字.insert({key:...原创 2018-04-18 21:29:28 · 2226 阅读 · 0 评论 -
python中的urlencode与urldecode
当url地址含有中文,或者参数有中文的时候,这个算是很正常了,但是把这样的url作为参数传递的时候(最常见的callback),需要把一些中文甚至’/'做一下编码转换。所以对于一些中文或者字符,url不识别的,则需要进行转换,转换结果如下:一、urlencodeurllib库里面有个urlencode函数,可以把key-value这样的键值对转换成我们想要的格式,返回的是a=1&b=...转载 2019-05-15 09:13:05 · 1778 阅读 · 0 评论 -
cookies与session区别
为神马使用cookie 与session因为http协议本身是无状态的,请求很单一,请求给你返回,所以引出了cookies。 cookies实际上是本地浏览器的一种存储机制,是本地的状态,是存在浏览器当中的,与服务器没有关系的。 正是有了cookies本地存储机制,所以说它可以存储很多信息,比如用户名密码,存储服务器给我返回的任何信息。可以在本地存储键值对(键值对形式存储),是存储在某个是...原创 2018-07-05 22:08:57 · 1817 阅读 · 2 评论 -
scrapy保存数据到文本
scrapy保存数据到文本可以是txt,json,csv第一种:方法import jsonclass MyspiderPipeline(object): # 在实例化的时候与处理一些事情 def open_spider(self, spider): self.file = open('fenghua.json', 'w') def proce...原创 2018-07-02 17:49:38 · 2884 阅读 · 3 评论 -
python 之 selenium代理设置、无头浏览器设置、页面等待的三种方式
Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器,可以接收指令,让浏览器自动加载页面,获取需要的数据,也可以页面截屏。显式等待指定某个条件,然后设置最长等待时间。,将浏览器对象放进去,等待10秒,每隔0.5秒去定位一下想要的元素(此处通过id形式,拿。就是简单地设置一个最大等待时间,单位为秒, 所有的元素定位操作都会使用该时间。为了提高脚本的稳定性,我们需要在脚本中增加等待时间,否则报错。elenium执行js。原创 2018-06-07 23:02:13 · 5234 阅读 · 1 评论 -
scrapy-redis分布式 简单settings配置
# Scrapy settings for example project# For simplicity, this file contains only the most important settings by default. #All the other settings are documented here:# http://doc.scrapy.org/topic...原创 2018-06-02 20:44:35 · 2217 阅读 · 0 评论 -
scrapy 框架之post请求
通常网站通过 实现对某些表单字段(如数据或是登录界面中的认证令牌等)的预填充。使用Scrapy抓取网页时,如果想要预填充或重写像用户名、用户密码这些表单字段,原创 2018-04-20 19:19:44 · 2879 阅读 · 1 评论 -
聚焦爬虫与通用爬虫
什么是网络爬虫?模拟客户端发送网络请求,接收请求对应的数据,按照一定的规则,自动抓取互联网信息的程序。只要人类能够访问的网页,爬虫在具备同等资源的情况下就一定可以抓取。原创 2018-03-28 21:49:06 · 4338 阅读 · 0 评论 -
python之scrapy框架中间件,请求头,IP代理及fake-useragent使用,及面试中正向代理、反向代理区别
什么下载器中间件? 引擎与下载器之间的一个组件,一个爬虫可以有很多下载器中间件I原创 2018-04-14 18:08:19 · 6281 阅读 · 0 评论 -
如何切割字符串为字典?以cookie为例
1.如让切割字符串,必有其相关规律,查找相关的规律。 2.根据其相关规律,进行split切割,可以优先考虑转化为列表 3.根据列表,然后进行再次切割,重点还是其内在的规律原创 2018-03-30 16:14:51 · 2667 阅读 · 0 评论 -
常见的http状态码出现原因200、301、302、403、404、500、503
200 请求被成功处理成功请求301 永久性重定向比如建设一个网站后,将网站的url变换了,重新申请一个域名,但是希望之前的用户访问之前url仍然可以访问到,就可以做一个重定向新的url下面。比如京东最早域名www.360buy.com名重定向到现在www.jd.com302 临时性重定向比如用户在未登录时访问个人中心页面,这时可以临时...原创 2018-07-05 22:41:49 · 29043 阅读 · 1 评论 -
爬虫304解决办法
如果你想全局阻止HTTP/304响应,可以这么做:首先清除浏览器的缓存,可以使用Fiddler工具栏上的Clear Cache按钮(仅能清除Internet Explorer缓存),或者在浏览器上按CTRL+SHIFT+DELETE(所有浏览器都支持).在清除浏览器的缓存之后,回到Fiddler中,在菜单中选择Rules > Performance > Disable Caching选...原创 2019-03-28 11:42:22 · 3619 阅读 · 0 评论 -
爬虫返回乱码以及解决办法以及锟斤拷、ISO-8859-1转码、&#、&#x转码、unicode转码,gbk转码,ascii转码、gb2312转码
注销设置Accept-Encoding为gzip,deflate,返回的网页是乱码����g�/1�C�y�/�D�O��’��‘Accept-Encoding’: ‘gzip, deflate, br’去掉后面的br或者 注释Accept-Encoding import requestsclass InfoTec(object): def __init__(sel...原创 2019-03-28 11:36:26 · 7172 阅读 · 2 评论 -
爬虫爬虫405 Not Allowed Request Payload
只需要换个参数就行了,post_data, headers, url*现在比较忙抽空再写个解释吧import requestsimport jsonclass InfoTec(object): def __init__(self): self.headers = { 'authority': 'api.*****************...原创 2019-02-22 21:30:52 · 7315 阅读 · 2 评论 -
scrapy如何查看log日志信息?
.1Log信息如何查看log日志信息?1)了解LOG_ENABLED 是否开启logLOG_ENCODING 编码格式2)重要LOG_FILE log文件路径LOG_LEVEL CRITICAL - 严重错误(critical) ERROR - 一般错误(regular errors) WARNING - 警告信息(warning messages) I...原创 2018-11-25 19:24:50 · 2929 阅读 · 2 评论 -
python 之 jsonpath、jmespath 与xpath 提取数据
List列表、Slice切片、字典对象、Flatten 正则、Filter 过滤条件。支持过滤器表达式 ( [?< expr > ] )支持 操作符、多选列表、过滤器和管道。原创 2020-03-23 13:54:59 · 563 阅读 · 0 评论 -
Ubuntu中scrapy 的安装
Ubuntu安装python的依赖包sudo apt-get install python-dev python-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev安装 Scrapy 框架 sudo pip install scrapy运行 安装后,在命令终端输入 scrapy,提示类似以下,代表已经安装...原创 2018-09-11 22:54:50 · 1418 阅读 · 0 评论 -
xpath的高级应用
1&amp;amp;amp;amp;amp;amp;lt;button class=&amp;amp;amp;amp;amp;quot;btn-check-phone click_btn&amp;amp;amp;amp;amp;quot; data-phone=&amp;amp;amp;amp;amp;quot;1941243342334&amp;amp;amp;amp;amp;quot;&amp;amp原创 2018-08-30 17:39:06 · 740 阅读 · 0 评论 -
多线程爬虫
Queue库python标准库是线程之间常见的数据交换形式Queue的使用可以确保Python的线程安全常用方法 q = Queue.Queue(maxsize) 创建队列,并可以指定大小 q.empty() 判断队列是否为空 q.full() 判断队列是...原创 2018-08-22 22:34:00 · 207 阅读 · 0 评论