只是为了记录自己使用中遇到的一些问题,方便查找。 1.创建项目: scrapy startproject ****(项目名) 2.创建爬虫: scrapy genspider 爬虫名 网站域名 注意: 1、爬虫名不要与项目名重合 2、域名要准确,是允许爬的域 3.分析网站: 提取数据: 1、正则表达式 2、xpath 3、css 4.运行爬虫: scrapy crawl 爬虫名 scrapy.Request(next_url,callback=self.parse) #生成器 Request()发出请求,类似requsets.get() callback是将发出去的请求得到的相应还交给自己处理 注意:毁掉函数不要括号,只需函数名 5.selenium使用:主要是解决javascript渲染的问题
scrapy爬虫入门,问题总结(持续更新)
最新推荐文章于 2021-05-09 11:37:06 发布