猩猩真可爱-CSDN博客

原创 python 爬虫保存豆瓣TOP250电影海报及修改名称

1. spider代码：这里注意找title和star，以及pic时xpath不同。前两者是在info下，后者是在pic下。for循环中按item寻找，每次找到一个item（电影）的title、star和图片信息，每次调用一次yield生成器，在pipeline里面进行处理。在item找完后，找下一个page的链接，再调用parse进行解析 # -*- coding: utf-8 -*- i

2018-01-07 17:25:39 2633

原创 python爬虫学习日记--20180106

1. 建立爬虫工程：scrapy startproject name 2. 定义item item是爬虫的数据模型的（item.py） 3. 新建spider：scrapy genspider ${spiderName} ${domain} 4.编写爬虫文件：主要是start_urls和def parse解析方法 5. 在settings.py中修改USER_AGENT项，防止403错误，

2018-01-06 16:53:30 382

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 python 爬虫 保存豆瓣TOP250电影海报及修改名称

原创 python爬虫学习日记--20180106

空空如也

空空如也

原创 python 爬虫保存豆瓣TOP250电影海报及修改名称