- 博客(4)
- 收藏
- 关注
原创 re正则在python爬虫的应用
爬虫爬多了,肯定会遇上一些需求不是在H5标签里面的东西。这时候,就只能硬着头皮去使用re正则提取东西了。import reimport urllib2from lxml import etreeins_url = 'https://www.instagram.com/ahmad_monk/'id = 22543622headers = {"User-Agent":"Mozilla/5...
2018-02-27 16:32:42 259
原创 scrapy 不使用ImagePipelines保存图片,并保持原图片名
除了使用自带的ImagePipelines方法外,还可以自己在pipelines写一个request,把图片保存下来。其它的都不在赘述,直接上pipelines。Pipelines.py# -*- coding: utf-8 -*-# Define your item pipelines here## Don't forget to add your pipeline to the I...
2018-02-09 13:51:34 1451
原创 scrapy 通过ImagePipelines下载图片并以非hash值作为图片名字来保存(保留图片原文件名)
喜欢用scrapy来爬美女图片的朋友肯定有这样的一个困扰,爬下来的图片都是各种乱码 *****.jpg 看起来不舒服,而且利于套图的归类。我就是在爬完了几十万的图片后,实在是无法忍受了,故想办法解决这个问题。首先定位到ImagePipelines.pyfrom scrapy.pipelines.images import ImagesPipelinefrom scrapy.exceptions ...
2018-02-09 11:58:11 978 1
原创 scrapy使用mongodb作为存储(数据库)
mongodb 相对于关系型数据库mysql 有不少的好处,对我而言就是在配合scrapy使用时,配置非常简单,不需要预先建表,设定字段的属性类型。 只需要在settings.py文件里面简单的配置就可以了,如下 当然,作为数据处理中心的pipelines.py也是需要做一些配置
2018-02-01 17:01:55 1360 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人