![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python
aGreySky
这个作者很懒,什么都没留下…
展开
-
Spark submit 配置executor参数无效
Spark submit的参数可以看这个网站Spark-Submit参数设置说明 - 开源大数据平台E-MapReduce - 阿里云但在Spark submit提交任务时,发现不管怎么设置参数,最后分区结果都固定为2,说明参数没生效。研究半天发现,需要把参数放在任务之前,也就是py文件需要放在最后,才能使参数生效。./spark-submit --master yarn --deploy-mode client --py-files /tmp/dmodpso/dmodpso_cd.zip原创 2022-05-07 01:07:18 · 1201 阅读 · 0 评论 -
爬虫Python报403或data为空问题
在爬取B站数据时,部分API是需要cookie才能获取数据的,没有携带则结果可能是code:403或{"code":0,"message":"0","ttl":1,"data":{}}比如upstat,需要将标头中的cookie放在爬虫中。headers['User-Agent'] = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758...原创 2022-03-05 21:50:49 · 1972 阅读 · 0 评论 -
scrapy爬取报HTTP status code is not handled or not allowed的可能解决方法
今天写爬虫时遇到了如题的问题,网上的解决方法都是修改get或post请求。但对我都没有用,因为我用postman测了下,get、post请求都能访问到。网上找了很久,终于找到解决方法——在settings.py中关闭代理,如下即可DOWNLOADER_MIDDLEWARES = { 'scrapy.downloadermiddlewares.useragent.UserAgent...原创 2020-03-19 19:33:38 · 2275 阅读 · 1 评论 -
PyPDF2库使用
简介这是Python提供的操作PDF文件的库。提取文档信息(标题,作者,…)按页拆分文档逐页合并文档裁剪页面合并多个页面到一个页对pdf文档进行加密解密等等安装和导入pip install PyPDF2import PyPDF2从PDF中提取文字import PyPDF2#打开文件pdfFile = open('example.pdf','rb')#读取PDFp...原创 2020-03-07 10:14:34 · 649 阅读 · 0 评论 -
python为QT程序添加图标
设置图标最好使用.gif图标,且不能是由其它格式(如.png)强行更改格式过来的图标文件作为程序图标,否则均有可能导致显示不出来在开发中使用图标from PyQt5.QtGui import QIconself.setWindowIcon(QIcon('images/squirrel.gif'))此时,我们只要在主函数模块的同级目录下有images文件夹,且里面包含squirrel.g...原创 2020-03-07 10:08:01 · 1637 阅读 · 0 评论