自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

q328730422的博客

12月 09月 08月 04月 03月 02月 01月

原创 re正则在python爬虫的应用

爬虫爬多了，肯定会遇上一些需求不是在H5标签里面的东西。这时候，就只能硬着头皮去使用re正则提取东西了。import reimport urllib2from lxml import etreeins_url = 'https://www.instagram.com/ahmad_monk/'id = 22543622headers = {"User-Agent":"Mozilla/5...

2018-02-27 16:32:42 259

原创 scrapy 不使用ImagePipelines保存图片，并保持原图片名

除了使用自带的ImagePipelines方法外，还可以自己在pipelines写一个request，把图片保存下来。其它的都不在赘述，直接上pipelines。Pipelines.py# -*- coding: utf-8 -*-# Define your item pipelines here## Don't forget to add your pipeline to the I...

2018-02-09 13:51:34 1451

原创 scrapy 通过ImagePipelines下载图片并以非hash值作为图片名字来保存（保留图片原文件名）

喜欢用scrapy来爬美女图片的朋友肯定有这样的一个困扰，爬下来的图片都是各种乱码 *****.jpg 看起来不舒服，而且利于套图的归类。我就是在爬完了几十万的图片后，实在是无法忍受了，故想办法解决这个问题。首先定位到ImagePipelines.pyfrom scrapy.pipelines.images import ImagesPipelinefrom scrapy.exceptions ...

2018-02-09 11:58:11 978 1

原创 scrapy使用mongodb作为存储（数据库）

mongodb 相对于关系型数据库mysql 有不少的好处，对我而言就是在配合scrapy使用时，配置非常简单，不需要预先建表，设定字段的属性类型。只需要在settings.py文件里面简单的配置就可以了，如下当然，作为数据处理中心的pipelines.py也是需要做一些配置

2018-02-01 17:01:55 1360 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

阿水攻城尸 CSDN认证博客专家 CSDN认证企业博客

码龄9年

IP 属地：浙江省

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

25: 原创

77万+: 周排名

190万+: 总排名

10万+: 访问

: 等级

760: 积分

6: 粉丝

5: 获赞

3: 评论

16: 收藏

私信

关注

热门文章

分类专栏

最新评论

openldap密码策略，定期短信及邮件提醒用户修改密码（ldap自身密码策略无法使用前提下的妥协）
xiaoyixue: 配置文档在哪儿？
scrapy使用mongodb作为存储（数据库）
平平无奇秃头小天才: 那如果想存多个表，分开试验每个表内容都能存进去，合在一起就存不进去是怎么回事呀大佬[code=python] class KaogongPipeline(object): @classmethod def __init__(self): # 获取setting主机名、端口号和数据库名称 settings = get_project_settings() host = settings['MONGODB_HOST'] port = settings['MONGODB_PORT'] dbname = settings['MONGODB_DBNAME1'] # 创建数据库连接 client = pymongo.MongoClient(host=host, port=port) # 指向指定数据库 mdb = client['kaogong'] # 获取数据库里面存放数据的表名 self.post = mdb[settings['MONGODB_DOCNAME1']] def process_item(self, item, spider): if isinstance(item, KaogongItem): # 对item的class进行鉴别 data = dict(item) # 向指定的表里添加数据 self.post.insert(data) return item class ZhiweiPipeline(object): @classmethod def __init__(self): # 获取setting主机名、端口号和数据库名称 settings = get_project_settings() host = settings['MONGODB_HOST'] port = settings['MONGODB_PORT'] dbna [/code]
scrapy 通过ImagePipelines下载图片并以非hash值作为图片名字来保存（保留图片原文件名）
weixin_43583424: 你好，确实可以了，不过没法循环创建文件夹，每遍历一个列表的图片之后，再新建一个文件夹怎么弄？

最新文章

提示

确定要删除当前文章？

取消删除