python3网络爬虫开发实战
文章平均质量分 96
python3网络爬虫开发实战代码复现
python__reported
python菜鸟入门,期待成为数据分析的大神;
互相帮助!
展开
-
appium安装使用问题(二)
appium安装使用问题(二)一、问题Appium安装问题第二步:问题一:第三步:问题二:二、解决方法第一个问题解决方法第二个问题的解决方法三、环境变量配置完整图一、问题Appium安装问题appium绝对不能直接安装,原因下载太慢使用node.js下载要用appium就必须node.js,下载node.js一路next的时候会有一个需要打勾的地方,注意不要打勾,因为这会安装python;当然对于还没有python的可以打勾勾上,如果有的就不要打勾其次,对于不想将npm包安装到系统盘的,需要原创 2021-07-19 14:50:37 · 1033 阅读 · 0 评论 -
mitmproxy正常启动但是无法抓包
mitmproxy正常启动但是无法抓包一、现象二、原因(一)第一步:(二)第二步:重点在端口1、ip错误2、端口一、现象mitmproxy正常启动是指,cmd中出现了Proxy server listening at http://*:8080Loading script J:\PyCharm项目\项目\项目四_mitmproxy_and_email\addon.py(ps:正常导入脚本)但是没有这个界面而是二、原因查询方法:(一)第一步:确认系统证书;确认手机证书;确认代理正原创 2020-05-22 09:25:27 · 6760 阅读 · 2 评论 -
Appium安装环境配置中的一些问题
Appium安装环境配置中的一些问题一、问题第一步:安装参照:第二步:问题一:第三步:问题二:二、解决方法第一个问题解决方法第二个问题的解决方法三、环境变量配置完整图一、问题第一步:安装参照:博主:MTbaby的专栏《Appium》基本没有什么大问题,链接: link.第二步:问题一:参照这个安装配置遇到了几个小问题,第一个问题就是win10配置java,安装专栏那里配置的环境变量,在cmd中打开时出现'java' 不是内部或外部命令,也不是可运行的程序或批处理文件。输入java,jav原创 2020-05-25 15:28:18 · 3094 阅读 · 0 评论 -
重装系统后:selenium无法找到chrome--报错selenium.common.exceptions.WebDriverException: Message: unknown error: c
重装系统后:selenium无法找到chrome--selenium.common.exceptions.WebDriverException: Message: unknown error: cannot find Chrome binary一、报错二、解决方法三、第二个报错:四、解决方法:一、报错selenium.common.exceptions.WebDriverException: Message: unknown error: cannot find Chrome binary翻译过来原创 2020-05-21 20:54:52 · 4186 阅读 · 0 评论 -
重装系统后:mitmproxy的使用
重装系统后:mitmproxy的使用一、mitmproxy的安装及配置第一步:下载mitmproxy第二步:windows平台安装mitmproxy证书第三步:安装手机证书:第四步:设置代理第五步:开启热点第六步:运行程序一、mitmproxy的安装及配置第一步:下载mitmproxypip install mitmproxy第二步:windows平台安装mitmproxy证书寻找到.mitmproxy文件夹将这个安装到受信任的根目录第三步:安装手机证书:然后下载按原创 2020-05-19 20:37:47 · 2678 阅读 · 0 评论 -
selenium的namespace错误与无法定位:NamespaceError: An attempt was made to create...andUnable to locate elemen
selenium报错:NamespaceError: An attempt was made to create or change an object in a way which is incorrect with regard to namespaces'一、报错二、原因一、报错'selenium.common.exceptions.InvalidSelectorException: Message: Given xpath expression' "/html/body/div/div[4]/原创 2020-05-28 13:51:30 · 4211 阅读 · 0 评论 -
列表数据清洗遇到问题的记录——set用法和remove方法的缺陷
爬虫过程中会由于各种原因导致数据重复以及确实,如网络中断,网络质量差,ip限制等等,因而进行数据清洗十分必要。在这个爬虫中,由于ip限制,为了尽量保证数据的完整性,尽量收集最多的数据,因而具有明显的重复率。重复率清洗的思路:1、初始的思路是按照选择排序法进行删重(刚刚学了选择排序法想用一下且没有想起set)对选择排序法进行改造初始的想法就是将 if data[i] > data[...原创 2020-04-13 22:16:46 · 2553 阅读 · 0 评论 -
pycharm精选插件实测推荐---持续更新中
pycharm插件能够实现一些必要的功能,但是也会减缓pycharm启动及运行速度。以下插件为通用的必不可少的插件一、安装方式:(原版pycharm)file>setting>Plugins(汉化版pycharm)文件>设置>Plugins二、插件集锦1、翻译类:之前用过之前参照csdn上的推荐,使用的是A8Translate,后来使用的是Transla...原创 2020-04-12 09:37:56 · 12216 阅读 · 0 评论 -
《python3网络爬虫开发实战》学习笔记::selenium——xpath:Unable to locate element
selenium+firefox在定位时遇到selenium.common.exceptions.NoSuchElementException: Message: Unable to locate element:由于是js加载页面,想确认是否是js的原因,随后进行多次调试时发现“//div”竟然也出现了selenium.common.exceptions.NoSuchElementExcept...原创 2020-04-11 17:31:37 · 2862 阅读 · 0 评论 -
解决:python同时执行多个.py文件(挂起多个程序)——线程并发
python IDE :pycharm运行任务:代理池(Python爬虫代理IP池(proxy pool)),url:https://github.com/jhao104/proxy_pool代理池启动方式:如上所述:启动代理池时发现需要同时启动两个py文件,但是每次去找到两个不再同一个位置的文件然后启动它们特别麻烦。于是,我想在一个py文件中进行代理池调用的集成。在启动这个代理池时遇...原创 2020-04-11 09:56:48 · 27966 阅读 · 2 评论 -
pycharm加速(小结)以及后台任务缩减
pycahrm启动加速的博文非常多主要有:1、清理缓存(增加启动速度以及防止运行卡顿)2、启动加速通过修改pycharm占用的xmx以及xms,xmx以及xms的文件在安装盘的bin目录下——(比如我的pycahrm安装在F盘的pycharm文件夹中,那么这个目录就是F:\pycharm\PyCharm Community Edition 2019.3.3\bin),bin目录下有一个py...原创 2020-04-08 21:28:18 · 5499 阅读 · 0 评论 -
python学习笔记:进程与线程——再理解
在上一篇《图解:进程与线程——实用主义理解》中我以为进程与线程创建好了就可以自动分成多个进程与线程,即一个函数被自动分成几个进程或者线程然后执行。但是,后来发现似乎并不是这样的。在简单函数试验时发现速度确实提高了,可以参见之前的这篇文章《图解:进程与线程——实用主义理解》,但是我在一个爬虫项目试图运用多线程时发现与我没有用多线程时似乎速度没有快多少。——这是在提取一个网页中的跳转的url...原创 2020-04-08 14:25:01 · 2319 阅读 · 0 评论 -
SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes——记一次失误
读取文件时报错:SyntaxError: (unicode error) ‘unicodeescape’ codec can’t decode bytes in position 105-106: truncated \uXXXX escape文件路径为:F:…(省略了中间路径)\urls.txt在file_path = 'F:…(省略了中间路径)urls.txt’中没有出现报错,以为这种写...原创 2020-04-05 15:22:16 · 4349 阅读 · 0 评论 -
图解:进程与线程——实用主义理解
理解:进程与线程都是加速代码运行的方式进程:可以简单理解为应用程序创建进程的代码:可以通过任务管理器的进程查看没有创建前的任务管理器有58个进程:创建后(创建了5个进程),其中python.exe就是进程:或许对于多个爬虫一起进行的时候较好线程:为创建线程时的代码运行速度:创建线程后:...原创 2020-04-04 16:53:39 · 2267 阅读 · 0 评论 -
pycharm图解:UnicodeEncodeError: 'gbk' codec can't encode character
python运行报错UnicodeEncodeError: ‘gbk’ codec can’t encode character ‘\xa0’ in position 111523: illegal multibyte sequence指定encoding=utf-8或者gbk,乃至网页编码以及将r.encoding = r.apparent_encoding,都没有效果,只有将内容写入t...原创 2020-03-30 18:12:29 · 8941 阅读 · 9 评论 -
《python3网络爬虫开发实战》学习笔记:pc与安卓代理证书都安装好但是无法监听——记自己的踩坑路径
设备版本:window:win7旗舰版、python版本:python3.7.0、pycahrm版本:PyCharm Community Edition 2019.3.3 x64、 手机:红米pro.mitmdump下手机突然无法联网,发现不是网络问题,证书也安装了,但是删除代理就可以上网,因而是代理的问题,但是抓包必须代理。而在模拟器上发现模拟器却可以成功,因而手机连不上网不是电脑关闭或者禁...原创 2020-03-30 09:49:33 · 2381 阅读 · 0 评论 -
解决:scrapy+splash+Lua脚本滚轮动态加载一次的问题
作为小白,对于滚轮动态加载没有想到简便的解决方法,主要是通过for循环。在学习之前的scrapy+selenium爬取的就是知乎页面,知乎页面是滚轮动态加载的,使用滚动到底这个js命令时发现只能翻转一页于是在’window.scrollTo(0,document.body.scrollHeight)'之前增加了一个for循环后可以成功加载多次。在scrapy+splash+Lua脚本滚轮...原创 2020-03-29 11:08:39 · 2266 阅读 · 0 评论 -
《python3网络爬虫开发实战》13.8笔记——记自己学习的困惑
《python3网络爬虫开发实战》13.8为scrapy对接selenium复制书中的源码无法爬取;由于淘宝需要会员登录后才能使用,不想麻烦的登录。爬取页面失败原因:因而选取的爬取对象是知乎:问题一:phantomjs在界面会存在警告"UserWarning: Selenium support for PhantomJS has been deprecated, please use...原创 2020-03-28 15:26:54 · 1724 阅读 · 0 评论 -
《python3网络爬虫开发实战》学习笔记:pyspider报错Exception: HTTP 599: SSL certificate problem...
报错信息:Exception: HTTP 599: SSL certificate problem: unable to get local issuer certificate 之前刚进去的第一个页面时候也是这个报错,但是等到今天它就没有了,我准备再等等。万一好了了!! 之前第一个页面就是这个页面(出现报错): ![在这里插入图片描述](https://img-blog.csdnimg...原创 2020-03-27 12:07:51 · 1586 阅读 · 1 评论 -
《python3网络爬虫开发实战》学习笔记:scrapy下载图片失败:WARNING: Dropped: IMAGE Downloaded Failed(记拼写错误))
最近再学崔庆才大神的《python3:网络爬虫开发实战》,已经爬取到了相关信息,但是下载出错。出现预设的下载报错:[scrapy.core.scraper] WARNING: Dropped: IMAGE Downloaded Failed 但是用的pycharm的terminal 没有出现报错,scrapy运行正常。 而在学习中对其中许多参数不了解,不知道为什么import,又有什么用。于...原创 2020-03-27 10:41:39 · 2334 阅读 · 1 评论 -
《python3网络爬虫开发实战》学习笔记:pyspider all报错的解决
'http_au@[TOC](pyspider all 报错解决)pyspider all 出现报错,一共三个报错。之前有两个报错,csdn上的大神已经解决了。参见《pyspider all运行出错:①SyntaxError@[TOC](第一个报错):主要是async是python3.7的保留字,pyspider库中的有些文件与之重复而出现报错,就三个文件,这三个文件的找法可以参照《wind...原创 2020-03-22 17:44:10 · 1871 阅读 · 3 评论 -
《python3网络爬虫开发实战》学习笔记:splash无法进入
为了能够在中断远程服务器后依然能够运行splash,使用命令 docker-d -p 8050:8050 scrapinghub/splash 进行安装在输入http://localhost:8050无法打开splash,然后参照《docker端口映射后不能使用localhost:port访问》将之修改为http://192.168.99.100:8050仍然不能打开,换了其他浏览器以及重启之...原创 2020-03-13 22:11:41 · 910 阅读 · 2 评论 -
《python3网络爬虫开发实战》学习笔记:docker toolbox安装的坑
docker 安装花费了我3天时间,期间一度令我绝望。首先就是docker版本问题,进入docker官网下载的docker版本直接就是需要win10的系统,我没有发现这个系统的要求直接就下载了,结果无法运行,找了一下百度才发现原来在系统要求这里(这坑细心一点就能够发现);接着下载了docker toolbox,一路next到了最后,打开Docker Quickstart Terminal自动下载...原创 2020-03-13 09:11:06 · 911 阅读 · 1 评论 -
python3网络爬虫开发实战
适用命令行pip install tesserocr 安装tesserocr时出现报错Microsoft Windows [版本 6.1.7601]版权所有 © 2009 Microsoft Corporation。保留所有权利。C:\Users\Administrator>pip install tesserocrCollecting tesserocrUsing cached t...原创 2020-03-03 12:16:52 · 2732 阅读 · 0 评论