Python
jiqiren2011
这个作者很懒,什么都没留下…
展开
-
Scrapy爬虫各种报错集
解析的方法中,有多个yield跟踪爬取,如果异步转同步,再提交到pipelines?原创 2019-12-26 19:35:10 · 439 阅读 · 0 评论 -
python 解决将webp格式转png
今天做爬虫时,发现爬下来的图片是webp,直接上传到oss,发现不能正常打开。于是,在网上搜如何将webp转png,jpg等正常图片格式,最终搜到这篇,试了一下可行:https://blog.csdn.net/wgPython/article/details/80740067这篇作者的解决方案又源于stackoverflow:https://stackoverflow.com/ques...原创 2019-12-24 12:08:12 · 2114 阅读 · 0 评论 -
待解决:python3安装mysqlclient后,使用时提示“Library not loaded: @rpath/libmysqlclient.21.dylib”
1、通过pip install -i https://pypi.douban.com/simple Mysqlclient 安装Mysqlclient, 此时显示是成功的2、但是在python代码中使用MySQLdb时, 报错“Library not loaded: @rpath/libmysqlclient.21.dylib” 尝试按照网上的方法,按照如下创建软连接, 然后还是没有...原创 2019-06-01 20:17:58 · 2346 阅读 · 4 评论 -
Scrapy爬虫报错: ValueError:Missing scheme in request url: h
使用scrapy内置的ImagesPipeline来完成自动下载图片时, 报错ValueError:Missing scheme in request url: h解决:settings.py中配置的 IMAGES_URLS_FIELD = "front_image_url",front_image_url所对应的item原来写成item["front_image_url"] =fro...原创 2019-06-01 14:58:00 · 2856 阅读 · 4 评论 -
Scrapy爬虫报错:Filtered offsite request to 'blog.jobbole.com'
原因:那就是request的地址和allow_domain里面的冲突而被过滤解决方法:使用Request的参数dont_filter=True,即:yield Request(url, callback=self.parse_item, dont_filter=True)或者,注释掉allowed_domains**...原创 2019-05-31 21:08:11 · 195 阅读 · 0 评论 -
国内的python使用豆瓣的pypi源
python国内豆瓣源豆瓣:https://pypi.doubanio.com/simple/# 直接在后面添加 -i "https://pypi.doubanio.com/simple/"# 例如安装 keraspip install keras# 变成pi...原创 2019-05-30 21:59:25 · 495 阅读 · 0 评论 -
Scrapy爬虫框架基本使用
一、常用命令scrapy startproject demo 创建项目名为demo的Scrapy项目 scrapy genspider testwww.xxx.com 创建名字为test的爬虫(需要进入到上面的demo目录下执行) scrapy crawl test 运行爬虫test ...原创 2019-05-26 23:25:03 · 123 阅读 · 0 评论 -
关于UTF-8和unicode编码简单理解
ASCII: 美国的编码, 一个字节, 最大只能表示255个字符 GB2312: 中国制定的编码。一般2个字节 unicode编码,目的是统一各国编码, 一般4字节。 解决了乱码问题, 但是也需要更多的存储空间,传输时也需要传输更多,产生更多开销。 UTF-8: 可变长度的编码, 比如一个英文字符,只占用1个字节,中文3个字节。作用比较明显。缺点就是增加复杂度 python3将所...原创 2019-05-26 22:51:41 · 445 阅读 · 0 评论 -
Python Re正则表达式之group(0)、group(1)
1. 正则表达式中的三组括号把匹配结果分成三组group() 同 group(0) 就是匹配正则表达式整体结果 group(1) 列出第一个括号匹配部分,group(2) 列出第二个括号匹配部分,group(3) 列出第三个括号匹配部分。 group(num=0) 匹配的整个表达式的字符串,group() 可以一次输入多个组号,在这种情况下它将返回一个包含那些组所对应值的元...转载 2019-05-26 20:56:10 · 16892 阅读 · 0 评论 -
Anaconda3的常用命令 和 问题
常用命令conda create -n py3.6 python=3.6 #创建python3.6版本(3.6的最新版本)的名为py3.6的虚拟环境conda remove -n py3.6 --all #删除名为py3.6的虚拟环境conda activate py3.6 #开启py3.6环境conda env list 或 conda ...原创 2019-05-26 18:34:17 · 403 阅读 · 0 评论 -
Python3 Re正则表达式
对正则表达式的运用总是不熟练, 每次要写正则的时候,总是傻傻分不清 * . ?+()区别了。这次特意系统学习,并做个笔记吧一、正则表达式的常用操作符操作符 说明 栗子 . 表示任意单个字符 [ ] 字符集,对单个字符给出取值范围 [abc]: 表示a或b或c; [a-z]: 表示a到z [^ ] 非字符集,对单个字符给出排...原创 2019-05-25 20:32:57 · 349 阅读 · 0 评论