![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
大数据采集及分析RPA
爬虫网页和app数据采集和大数据BI分析,RPA自动化同行业的人,一起学习交流,也可接单子,有需要的私聊
展开
-
XPath总结笔记
XPath总结笔记原创 2022-07-05 00:22:16 · 113 阅读 · 3 评论 -
解决爬虫js加密难题之工具selenium知识点总结
web爬虫selenium解决js加密难题解决爬虫js加密难题之工具selenium知识点总结原创 2022-05-31 13:56:58 · 590 阅读 · 1 评论 -
Airtest实现在手机界面快速批量采集数据
Airtest使用的poco方法比较慢,寻找差不多一周,看完这篇文章能节省一周时间,希望帮到大家。使用页面规律,要找到每条数据的附近规律(一般是图像规律),使用find_python最大的优势是车轮(第三方库),不用我们去扣代码,上面的解决办法借助了ocr,我们一直应用于验证码识别,当然这种识别正确率达不到100%,要想提高正确率,借助于谷歌这些大平台服务,收费的服务也很棒,正确率确实高,上面的代码是借助于免费的第三方库,也觉得够用,当然大家有更好的办法,欢迎大家评论转发交流,一起共享更好的技术。原创 2024-02-08 02:14:41 · 530 阅读 · 1 评论 -
python判断图片主颜色
做自动化测试的朋友肯定遇到好多次,按钮属性无法判别时,就需要自己将app选项颜色进行判断。网上大多数方案:通过图片AI识别,识别精度再高也不能到达百分百。就会识别错误几个选项,导致大批量的测试失败几次。在网上查了好多的资料,发现都转换为RGB值,然后就不好判断了,因为自己项目中要用,就赶快写一个HSV判断图片主颜色,这个方案仅供大家参考学习,如果有不当之处,请多多包含。修改其中的一些代码放在自己项目中,希望可以帮到小伙伴。决定用RGB值判断图片主颜色,结果发现颜色模型太复杂,太烧脑细胞,果断放弃。原创 2023-11-03 02:06:54 · 525 阅读 · 4 评论 -
Unexpected fatal error while intitailizing Python runtime报错
Unexpected fatal error while intitailizing Python runtime报错初始化Python运行时时发生意外致命错误。请运行idapyswitch以确认或更改已使用的Python运行时原创 2023-03-12 17:19:26 · 1347 阅读 · 1 评论 -
爬虫app中sdk命令大全31-36
爬虫app中sdk命令大全31-36原创 2022-07-22 11:55:37 · 415 阅读 · 0 评论 -
解决SDK Manager.exe运行后界面没有缺少选项,只有tools和Extras两个选项:遇到相同的问题可以作为参考
解决SDK Manager.exe运行后界面没有缺少选项,只有tools和Extras两个选项:遇到相同的问题可以作为参考原创 2022-07-21 23:46:09 · 560 阅读 · 1 评论 -
win10免费sdk安装详细过程
win10中sdk安装详细过程原创 2022-07-21 00:31:28 · 4845 阅读 · 2 评论 -
win10中jdk安装详细安装过程
win10中jdk安装详细安装过程原创 2022-07-20 22:54:31 · 1376 阅读 · 1 评论 -
爬虫请求头加引号
代码】爬虫请求头加引号。原创 2022-07-20 18:45:30 · 195 阅读 · 0 评论 -
夜神模拟器安装fiddler证书
夜神模拟器安装fiddler证书。原创 2022-07-20 17:38:23 · 2056 阅读 · 1 评论 -
pycharm关于第三方库操作大全
pycharm关于第三方库操作大全原创 2022-07-20 10:58:01 · 2021 阅读 · 0 评论 -
浏览器docker-toolbox无法下载???
浏览器docker-toolbox无法下载???等差不多五分钟就下载下来了。原创 2022-07-19 17:51:34 · 219 阅读 · 0 评论 -
mitmproxy的安装与使用
windows下面是不支持mitmproxy的,但是安装mitmproxy的时候回同时安装3个库,分别是mitmproxy、mitmdump、mitmweb。打开百度搜索,依次搜索mitmproxy、mitmweb、mitmdump,然后结束录制。更多参数见https//docs.mitmproxy.org/stable/concepts-filters/例1监听9999端口,并录制请求数据,保存到baidu.txt文件。mitmproxy设置浏览器的代理,在浏览器中输入mitm.it,...原创 2022-07-19 13:23:04 · 3098 阅读 · 2 评论 -
pycharm安装mitmproxy报错 WARNIN: Retrying (Retry(total=4, connect=None, read=None
WARNING: Retrying (Retry(total=4, connect=None, read=None, redirect=None, status=None)) after connection broken by 'ProxyError('Cannot connect to proxy.', timeout('_ssl.c:1114: The handshake operation timed out'))': /simple/mitmproxy/原创 2022-07-19 10:15:35 · 373 阅读 · 0 评论 -
fidder出现443的解决Host: notify.bugsnag.com:443
fiddler抓取HTTPS数据失败,全部显示tunnelto…443,Host443。原创 2022-07-18 12:26:04 · 709 阅读 · 1 评论 -
电脑命令行安装夜神模拟器app
电脑命令行安装夜神模拟器app。注意app名是复制,防止出错。下载安装包存放在路径。cmd先定位到改路径。原创 2022-07-17 17:46:23 · 285 阅读 · 0 评论 -
检查夜神模拟器与电脑是否连接?
检查夜神模拟器与电脑是否连接?原创 2022-07-17 17:31:29 · 282 阅读 · 0 评论 -
爬虫免费Charles使用教程
爬虫免费Charles使用教程网盘下载地址](https://pan.baidu.com/s/1Pub5dVrNVRr6tW1-nuyeUA#list/path=/)4.替换掉原文件夹里的charles.jarWindows替换路径: C:\Program Files\Charles\lib\charles.jarMac替换路径: /Applications/Ch原创 2022-07-14 16:48:42 · 707 阅读 · 0 评论 -
解决user installations are disabled via policy on the machine错误
解决user installations are disabled via policy on the machine错误(charles安装报的错误)原创 2022-07-13 23:45:40 · 8313 阅读 · 3 评论 -
爬虫存为多级嵌套JSON文件总结
爬虫存为多级嵌套JSON文件总结原创 2022-07-12 22:14:46 · 323 阅读 · 0 评论 -
问题TabError: inconsistent use of tabs and spaces in indentation
问题TabError: inconsistent use of tabs and spaces in indentation原创 2022-07-12 17:23:21 · 78 阅读 · 0 评论 -
大数据采集存为多级嵌套json文件总结
大数据采集存为多级嵌套json文件总结,网上的教程都是单层,让采集数据存为json多级嵌套成为一大障碍,我在项目中也碰到相同的问题,网上到处找文章和相关的人员,通过几天的努力总算搞定了,现在梳理一下思路,发布出来,希望帮到更多的同行业人员及学生,只作为参考,禁止用于商业教程,相关人员可以免费学习,快乐你我他,来个点赞加关注及收藏,不然想看时找不见了。有相关问题可以评论。个人博客中有相关教程,欢迎大家查看。网页被官方下料,查看我的知乎网站有相关文章https://zhuanlan.zhihu.com/p/5原创 2022-07-12 15:37:30 · 236 阅读 · 1 评论 -
爬虫存为嵌套json总结
大数据采集存为多级嵌套json文件总结,网上的教程都是单层,让采集数据存为json多级嵌套成为一大障碍,我在项目中也碰到相同的问题,网上到处找文章和相关的人员,通过几天的努力总算搞定了,现在梳理一下思路,发布出来,希望帮到更多的同行业人员及学生,只作为参考,禁止用于商业教程,相关人员可以免费学习,快乐你我他,来个点赞加关注及收藏,不然想看时找不见了。有相关问题可以评论。个人博客中有相关教程,欢迎大家查看。...原创 2022-07-11 17:00:26 · 197 阅读 · 2 评论 -
写入保存文件时出现错误TypeError: a bytes-like object is required, not ‘str‘
写入保存文件时出现错误TypeError: a bytes-like object is required, not 'str'原创 2022-07-11 16:43:02 · 258 阅读 · 0 评论 -
数据采集遇到UnicodeEncodeError: ‘gbk‘ codec can‘t encode character问题
数据采集遇到UnicodeEncodeError: ‘gbk‘ codec can‘t encode character问题原创 2022-07-11 15:01:04 · 192 阅读 · 0 评论 -
NameError: name ‘reload‘ is not defined
NameError: name 'reload' is not defined原创 2022-07-11 00:08:47 · 655 阅读 · 0 评论 -
scrapy中修改爬取数据的输出编码格式
scrapy中修改爬取数据的输出编码格式原创 2022-07-10 23:26:14 · 541 阅读 · 0 评论 -
功能强大的Scrapy (网络爬虫框架)总结
随着大数据价值的提升,数据采集和爬虫已成为获取真实数据主要的来源,Scrapy是用python开发的一个应用程序框架,用于对网站进行爬取和提取结构化数据,这些结构化的数据可用于数据数据分析等。...原创 2022-07-10 19:05:43 · 756 阅读 · 0 评论 -
python 多进程存为csv
python 多进程存为csv案例,直接在项目中应用原创 2022-07-10 17:38:13 · 336 阅读 · 0 评论 -
提高爬虫效率aiohttp
如果 CPU 能将等待时间利用起来,那么爬虫效率就提高了。那就需要对程序进行改造,将 I/O 同步操作变成异步操作。原创 2022-07-10 17:30:38 · 677 阅读 · 0 评论 -
Session 与 Cookies很形象的比喻
所以session是保存在服务器端,cookie是保存在客户端,每次访问的时候,相当于去串门,用户带着cookie去服务器家,当当当敲门,服务器问是谁啊用户:是我(cookie)啊服务器:让我来确认一下(session确认)服务器确认完毕后,放用户进门。...原创 2022-07-10 16:54:51 · 114 阅读 · 0 评论 -
爬虫的原理总结
爬虫的原理总结原创 2022-07-10 16:27:21 · 172 阅读 · 0 评论 -
Web 网页爬虫基础总结
Web 网页爬虫基础总结首先,我们来了解网页的基本组成,网页可以分为三大部分:HTML、CSS 和 JavaScript。原创 2022-07-10 16:21:42 · 200 阅读 · 0 评论 -
爬虫HTTP总结
了解HTTP 的基本原理以及了解在浏览器中输入 URL 到获取网页内容之间发生了什么,有助于我们进一步掌握爬虫的基本原理。原创 2022-07-10 13:26:54 · 299 阅读 · 0 评论 -
scrapy反爬虫与反反爬虫总结
scrapy反爬虫与反反爬虫文章比较多,都简谈不全,现在搜集好多资料,梳理一下思路,总结了一下内容。原创 2022-07-10 10:46:16 · 325 阅读 · 0 评论 -
Scrapy伪装成随机浏览器
好多小伙伴在Scrapy伪装成随机浏览器时,学习伪装浏览器但没开启中间件。现在博主利用空闲时间现在出个完整的教程。原创 2022-07-10 10:01:55 · 646 阅读 · 0 评论 -
scrapy框架中run文件
scrapy框架中run文件原创 2022-07-09 18:52:45 · 523 阅读 · 0 评论 -
scrapy框架多界面详情页中多字段提取实现过程
scrapy框架详情页中多字段提取实现过程原创 2022-07-09 13:04:44 · 170 阅读 · 0 评论 -
Scrapy中的settings配置文件多个版本的参数详解
Scrapy中的settings配置文件多个版本的参数详解原创 2022-07-09 12:55:09 · 228 阅读 · 0 评论