1、新建scrapy项目:
cmd:scrapy startproject Article
pycharm console:
创建爬虫文件:scrapy genspider jobbole blog.jobbole.com
settings.py:
ROBOTSTXT_OBEY = False
使用CrawlSpider实现自动翻页
CrawlSpider根据规则提取指定链接,然后再向这些链接发送请求
CrawlSpider继承自scrapy.Spider
提取链接有两种方式:allow正则表达式 restrict_xpath
创建爬虫文件:scrapy genspider -t crawl read www.dushu.com
编写爬虫文件read
items创建数据结构
read中导入items中的类,赋值,提交
settings打开管道,piplines保存为json文件
查看爬虫模板:
C:\Users\fm>scrapy genspider --list
Available templates:
basic
crawl
csvfeed
xmlfeed
默认使用basic模板
调用crawl模板:
scrapy genspider -t crawl lagou www.lagou.com
添加ua:
scrapy shell -s USER_AGENT="Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.86 Safari/537.36" url
scrapy shell输出中文ÿ
scrapy、xpath
于 2018-07-08 18:40:32 首次发布
本文详细介绍了使用Scrapy框架配合XPath进行网络爬虫的实践过程,包括新建Scrapy项目、设置自动翻页、调试、元素提取、处理编码问题、保存图片、保存为JSON、导出到MySQL、使用ItemLoader、设置UA、配置IP代理、验证码识别、设置下载速度以及结合Selenium和Scrapy-Redis进行更复杂的爬虫操作。内容涵盖了从基础到进阶的多个方面。
摘要由CSDN通过智能技术生成