scrapy爬虫框架学习

找到一个有关历史名人的网站:http://ren.bytravel.cn/  网站地区分门别类很整齐,找到上饶地区,在一个名叫basic的爬虫代码里,start_url 里填写的就是这个网址:http://ren.bytravel.cn/Celebrity/index408_list.html

用scrapy爬取其中上饶籍的历史名人

首先,scrapy startproject shangraorenwucrawl 创建了一个scrapy项目

然后,这个scrapy项目的文件夹就建立好了,进入其中,写item.py 这个文件说明了你要爬取的item,这个item就像python里的字典,或者就像一张二维表,你定义要爬取的内容

然后,写setting.py 这个文件是scrapy的一些设置,在文件末尾添加了几行设置爬虫以浏览器名义执行request的语句,还有设置文件格式utf-8         等等

然后,在spider目录里新建爬虫py,你可以在命令行里,scrapy genspider basic web,这个basic爬虫是scrapy自带的模板,web是你允许爬虫去爬的域名,比如:ren.bytravel.cn 

然后,写这个basic爬虫喽,找xpath,写爬虫

然后,写好爬虫,scrapy crawl basic 运行这个爬虫,你可以在命令行后面加 -s CLOSESPIIDER_ITEMCOUNT=60  这个是设置 可以加 -o item.json 这样就把输出保存为json文件,当然也可以保存为csv文件

Duang的一下这个爬虫就OK了

GitHub地址:https://github.com/maoyuqing/shangraorenwucrawl

转载于:https://www.cnblogs.com/MaoYQ/p/9299223.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值