- 博客(2)
- 收藏
- 关注
原创 python 爬虫 保存豆瓣TOP250电影海报及修改名称
1. spider代码:这里注意找title和star,以及pic时xpath不同。前两者是在info下,后者是在pic下。for循环中按item寻找,每次找到一个item(电影)的title、star和图片信息,每次调用一次yield生成器,在pipeline里面进行处理。在item找完后,找下一个page的链接,再调用parse进行解析 # -*- coding: utf-8 -*- i
2018-01-07 17:25:39 2509
原创 python爬虫学习日记--20180106
1. 建立爬虫工程:scrapy startproject name 2. 定义item item是爬虫的数据模型的(item.py) 3. 新建spider:scrapy genspider ${spiderName} ${domain} 4.编写爬虫文件:主要是start_urls和def parse解析方法 5. 在settings.py中修改USER_AGENT项,防止403错误,
2018-01-06 16:53:30 330
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人