Scrapy学习笔记2-新建卧项目

        写在最前:在网上看到很多直接使(学)用(习)框架之争的文章,多是建议从头开始学起,先是基本的python的语法,再到html的request,urlib包的使用等。对于Ace哥来说,有这等时间去重头学习,还不如多干点工作,挣多点进口袋为妙。Ace哥归纳过,编程的东西大同小异,每种编程语言使用的都是那几个循环和判断语句而已。

        进入正题:在安装好了Scrapy后,我们就要开始上手调试框架让它适用我们的工作需求了。Ace哥的笔记本是thinkpad x220i,自己升级到6G内存,配备windows 7旗舰版系统。工作目录在D:\pyworks,接下来开始我们的使用之旅。

       第1步:使用命令提示符进入到D:\pyworks工作目录中,使用命令scrapy startproject AceSpider(命一个自己喜欢的名字即可)

       第2步:进入到新建好的项目里cd AceSpider,再使用命令scrapy genspider ggzy deal.ggzy.gov.cn,意思就是创建一个ggzy(全国公共资源交易平台,名字根据你自己的喜欢命名),抓取的域名是deal.ggzy.gov.cn意思就是除了这个域名外的其它域名的内容都不抓取。(如下图所示)


       第3步:按一步一步的操作步骤应该测试一下,但前面我们已经安装好了scrapy,基本上是不需要再测试的,直接进入文件的配置,这里有请我们的IDE(PyCharm,下载和激活请自行百度),打开我们刚才新建立的AceSpider项目.打开ggzy.py文件,修改start_urls = ['http://deal.ggzy.gov.cn/ds/deal/dealList.jsp'],start_urls默认为域名,但我们抓取的只是整站里的一个栏目,采购公告。(如下图所示)


        打开settings.py文件,修改Obey robots.txt rules(遵从机器人规则)REBOTSTXT_OBEY =  True将True修改为False。对于DEFAULT_REQUEST_HEADERS这里暂时先不配置,根据自己的实际工作需求来配置。

        至此一个项目新建完成,接下来,我们将抓取公告的项目名称和对应的打开链接。



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值