自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 re正则在python爬虫的应用

爬虫爬多了,肯定会遇上一些需求不是在H5标签里面的东西。这时候,就只能硬着头皮去使用re正则提取东西了。import reimport urllib2from lxml import etreeins_url = 'https://www.instagram.com/ahmad_monk/'id = 22543622headers = {"User-Agent":"Mozilla/5...

2018-02-27 16:32:42 259

原创 scrapy 不使用ImagePipelines保存图片,并保持原图片名

除了使用自带的ImagePipelines方法外,还可以自己在pipelines写一个request,把图片保存下来。其它的都不在赘述,直接上pipelines。Pipelines.py# -*- coding: utf-8 -*-# Define your item pipelines here## Don't forget to add your pipeline to the I...

2018-02-09 13:51:34 1451

原创 scrapy 通过ImagePipelines下载图片并以非hash值作为图片名字来保存(保留图片原文件名)

喜欢用scrapy来爬美女图片的朋友肯定有这样的一个困扰,爬下来的图片都是各种乱码 *****.jpg 看起来不舒服,而且利于套图的归类。我就是在爬完了几十万的图片后,实在是无法忍受了,故想办法解决这个问题。首先定位到ImagePipelines.pyfrom scrapy.pipelines.images import ImagesPipelinefrom scrapy.exceptions ...

2018-02-09 11:58:11 978 1

原创 scrapy使用mongodb作为存储(数据库)

mongodb 相对于关系型数据库mysql 有不少的好处,对我而言就是在配合scrapy使用时,配置非常简单,不需要预先建表,设定字段的属性类型。   只需要在settings.py文件里面简单的配置就可以了,如下  当然,作为数据处理中心的pipelines.py也是需要做一些配置

2018-02-01 17:01:55 1360 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除