自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 python 爬虫 保存豆瓣TOP250电影海报及修改名称

1. spider代码:这里注意找title和star,以及pic时xpath不同。前两者是在info下,后者是在pic下。for循环中按item寻找,每次找到一个item(电影)的title、star和图片信息,每次调用一次yield生成器,在pipeline里面进行处理。在item找完后,找下一个page的链接,再调用parse进行解析# -*- coding: utf-8 -*-i

2018-01-07 17:25:39 2476

原创 python爬虫学习日记--20180106

1. 建立爬虫工程:scrapy startproject name2. 定义item item是爬虫的数据模型的(item.py)3. 新建spider:scrapy genspider ${spiderName} ${domain}4.编写爬虫文件:主要是start_urls和def parse解析方法5. 在settings.py中修改USER_AGENT项,防止403错误,

2018-01-06 16:53:30 293

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除