![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python
Fdoyancao
这个作者很懒,什么都没留下…
展开
-
python正则替换字符串
re模块sub方法方法定义:re.sub(pattern, repl, string, count=0, flags=0)pattern : 正则中的模式字符串。repl : 替换的字符串,也可为一个函数。string : 要被查找替换的原始字符串。count : 模式匹配后替换的最大次数,默认 0 表示替换所有的匹配。如需要替换字符串中的空格和换行符:retext = re.c...原创 2018-12-29 16:10:48 · 4073 阅读 · 0 评论 -
python scrapy 学习(一)第一个scrapy项目
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。话不多说,开始学习scrapy框架~下载scrapypip3 install scrapy (python3以上版本)创建scrapy项目创建一个爬取代理ip的项目,命令如下:scrapy startproject mySpiderIp生成工程目录如...原创 2019-01-02 10:37:21 · 215 阅读 · 0 评论 -
python scrapy 学习(二)IpSpider类
IpSpider类上篇已经创建了第一个scrapy工程,新建了第一个爬取类IpSpider,用来从网站(或一组网站)中提取信息。它们必须子类化 scrapy.Spider并定义要生成的初始请求,可选地如何跟踪页面中的链接,以及如何解析下载的页面内容以提取数据。代码如下图所示:IpSpider类定义的一些属性和方法:name:识别spider。它在项目中必须是唯一的,也就是说,您不能为不同...原创 2019-01-04 10:14:55 · 214 阅读 · 0 评论