Scrapy学习笔记2-新建卧项目

最新推荐文章于 2024-09-25 09:59:34 发布

AceCode

最新推荐文章于 2024-09-25 09:59:34 发布

阅读量431

点赞数

分类专栏： Python爬虫文章标签： python scrapy 爬虫数据抓取

本文链接：https://blog.csdn.net/AceCode/article/details/78486060

版权

Python爬虫专栏收录该内容

2 篇文章 0 订阅

订阅专栏

写在最前：在网上看到很多直接使（学）用（习）框架之争的文章，多是建议从头开始学起，先是基本的python的语法，再到html的request,urlib包的使用等。对于Ace哥来说，有这等时间去重头学习，还不如多干点工作，挣多点进口袋为妙。Ace哥归纳过，编程的东西大同小异，每种编程语言使用的都是那几个循环和判断语句而已。

进入正题：在安装好了Scrapy后，我们就要开始上手调试框架让它适用我们的工作需求了。Ace哥的笔记本是thinkpad x220i，自己升级到6G内存，配备windows 7旗舰版系统。工作目录在D:\pyworks，接下来开始我们的使用之旅。

第1步：使用命令提示符进入到D:\pyworks工作目录中，使用命令scrapy startproject AceSpider（命一个自己喜欢的名字即可）

第2步：进入到新建好的项目里cd AceSpider，再使用命令scrapy genspider ggzy deal.ggzy.gov.cn，意思就是创建一个ggzy（全国公共资源交易平台，名字根据你自己的喜欢命名），抓取的域名是deal.ggzy.gov.cn意思就是除了这个域名外的其它域名的内容都不抓取。（如下图所示）

第3步：按一步一步的操作步骤应该测试一下，但前面我们已经安装好了scrapy，基本上是不需要再测试的，直接进入文件的配置，这里有请我们的IDE(PyCharm,下载和激活请自行百度)，打开我们刚才新建立的AceSpider项目.打开ggzy.py文件，修改start_urls = ['http://deal.ggzy.gov.cn/ds/deal/dealList.jsp']，start_urls默认为域名，但我们抓取的只是整站里的一个栏目，采购公告。（如下图所示）