十二学习笔记:第一个scrapy爬虫

1.首先创建scrapy项目使用,scrapy startproject + 项目名
2.配置item文件,写入你需要爬取的字段
3.配置设置,可以先提前打开pipeline(后面要用到)
然后就是使用代理:
'USER_AGENT': 'Mozilla/5.0 (Windows NT 6.1; WOW64)\
 AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'
不然不能进入网站,会被屏蔽
百度代理:'USER_AGENT':'Mozilla/5.0 (Windows NT 10.0; WOW64) Ap\
pleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.10 Safari/537.36'
4.就可以cd到spiders文件夹下,使用scrapy genspider myspeider douban.com
(这里的douban.com不是URL,是URL的话做callback的时候不能采集下一页)
创建一个新的爬虫(算是核心)负责请求URL,处理想要提取的东西
5.循环后要调用爬虫项目中的item文件,但是有时候不能直接导入模块,这时
我们可以导入一个sys模块进行处理:
import sys
sys.path.append(r'C:\Users\lg\Desktop\Python\dbSpider')
这里使用yield弄成一个生成器一个一个返回:
yield item
6.如果有多个URL需要请求的话,可以在start_url[],里面直接添加,但是那样子太
孬了,要提取大量数据的话要写很多,很难看,也那难写;所以在这里我们可以使
用一个递归函数:

yield scrapy.Request(self.url + str(self.offset), callback = self.parse)

7.allowed_domains = ['这里面千万不能URL']第一次用的时候在里面填了一个带'/'的URL

写xxx.com这种(不知道怎么称呼,大概叫域名吧!)

(希望有大神多多指教)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值