- 博客(12)
- 资源 (2)
- 收藏
- 关注
原创 关于Fiddler打开抓不到任何一个包的问题【已解决】
之前使用fiddler抓包都没有任何问题,过了一段时间再次打开就发现无法抓包的问题。打开fiddler只有一个fiddler自家的检查更新的请求,还是502。一开始以为是证书的问题,或者版本太老的问题
2022-08-04 11:02:35 1540
原创 关于python使用win32com生成word文档目录
最近在做一个数据分析项目,涉及到生成word文档。py在操作word这一块使用的是python-docx,但是我看了官方文档,发现这个模块并不能生成目录。在查了一些资料后发现win32com能够解决这个问题使用win32com生成word目录需要搭配微软的.Net api使用,地址:(https://docs.microsoft.com/zh-cn/office/vba/api/word.document)代码:def update_toc(docx_file): # word路径 wo
2021-03-15 16:57:47 1875 7
原创 解决windows使用pytesseract的几个BUG(tesseract.exe is not installed or it's not in your PATH)
正常安装pytesseract时没有任何问题的,但是在真正使用的时候就会报错:pytesseract.pytesseract.TesseractNotFoundError: tesseract.exe is not installed or it's not in your PATHpytesseract未安装或者不在指定路径,百度了一大堆,说什么要添加路径:tesseract_cmd = r'C:\Program Files (x86)\Tesseract-OCR\tesseract.exe.
2020-05-09 16:11:10 879
原创 PyQt5 +requests 写一个能播放全网音乐的播放器
先展示一下界面:在界面美化这一块参考的是‘州的先生’大佬的文章:https://zmister.com/archives/477.html 感兴趣的朋友可以去看看,参考了大佬的界面布局和美化,在他的基础上做了些许的改动在界面布局这一块采用的是Qtdesigner:整体布局产用的两个widget来分开左右布局简单贴一些界面优化的代码Form.setWindowOpacity(0.9)...
2020-05-06 10:36:30 916
原创 使用selenium控制浏览器实现自动指定文件夹下载app
前两天帮一个朋友写了个自动下载app的脚本,发现了一个问题:在网上找的配置谷歌浏览器下载文件的代码中:prefs = {'profile.default_content_settings.popups': 0, 'download.default_directory': 'd:\\'}大多数人都是使用这样的配置,但是由于我也不知道什么东西的改版导致这个方法行不通,需要自己选择下载路径。后...
2020-03-02 11:39:57 570
原创 python定时启动多个爬虫,解决(twisted.internet.error.ReactorNotRestartable)报错
最开始是使用commands方法启动的多个爬虫,但是这种方法在使用定时任务的时候会出现只能跑一次的情况from scrapy.commands import ScrapyCommandfrom scrapy.utils.project import get_project_settingsclass Command(ScrapyCommand): requires_project...
2020-01-14 17:57:19 3853 1
原创 Json.loads()报错('gbk' codec can't encode character '\u0161'),解决字符串有大量转义的问题
在爬取数据的时候发现有大量转义字符:https:\/\/img.abiosgaming.com\/flags\/然后使用 json.loads(response.text)就会报错:UnicodeEncodeError: 'gbk' codec can't encode character '\u0161' in position 60388: illegal multibyte sequ...
2020-01-08 14:45:55 1208
原创 Scrapy框架初始化请求为POST的两种方法
Scrapy框架初始化请求为POST的一些坑第一次碰到scrapy框架第一个请求为post,找到的两种方法,记录一下第一种是使用携带 method='POST' 的方法:yield scrapy.FormRequest(url='https://*****************', method='POST', formdata={'Type': 'UpComing,Live'}, cal...
2019-12-26 17:29:51 634
原创 scrapy 爬网站 显示 Filtered offsite request to 错误
在用scrapy框架爬取某些网站碰到需要提取ajax请求的json数据时,可能会出现url不在允许的域名范围内,这个时候就会出现下面这种错误:Filtered offsite request to 'xxxxxxxx'这个时候只需要停掉过滤功能就好了:yield scrapy.Request( url=url2, callb...
2019-12-12 18:07:46 279 1
原创 scrapy中的yield scrapy.Request 在传递item 的注意点
在用scrapy框架的时候在很多情况下会出现要爬取一个列表页面和一个详情页面的情况,这个时候通常会使用yield 来发起一个请求,并通过 callback 参数为这个请求添加回调函数,在请求完成之后会将响应作为参数传递给回调函数,但在我们传递item的时候会出现一些问题:在需要多次调用下面这个parse_detail() 方法的时候,会出现获取到最后一个item的情况,而且是循环调用最后一个,...
2019-12-10 11:29:38 3035 5
原创 Scrapy框架启动多个爬虫的方法
有的时候在抓取过程中可能会出现同一个网站相同数据在不同url里有不同爬取方法的情况,所以这个时候需要编写多个爬虫,最开始是使用cmdline.execute(“scrapy crawl spider1”.split()) 启动爬虫,但发现用这种方法执行多个最后真正抓取的只有第二个。from scrapy import cmdlinecmdline.execute("scrapy crawl ...
2019-12-10 11:09:52 1111
原创 python爬虫解决timed out 的几种方法
python爬虫解决timed out 的几种方法在请求量比较大,目标网站承重量有限的情况下可能会出现下面这种报错:Max retries exceeded with url : … Connection to www.xxxx timed out 一开始想着增加timeout的大小,但后来发现这样不仅降低了爬取速度,而且并不能有效的解决这种问题,后来在看了看别人...
2019-12-10 10:11:47 11059
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人