下载Scrapy
在cmd命令窗口下输入
pip install Scrapy
创建文件夹
在cmd命令窗口下cd到想要创建的目录下输入:
scrapy startproject 项目名
创建文件夹,如出现以下界面将代表创建成功:
然后cd到第二层项目名的文件夹下,例如:
在命令提示窗口输入:
scrapy genspider tencent(python名) “tencent.com”(需要爬取的网站)
出现以下界面将代表创建成功
然后cd到spiders文件目录下,就可以看到tencecnt.py将其进行编程
对start_urls变量进行设置成想要爬取的目标链接:
如果只需要爬取一页可以不对其进行设置
如果爬取需要翻页的页面利用offset变量将其进行拼接,如图
即可在parse下用xpath或者其他对网页进行爬取,例如:
之后通过“管道”对spiders下的items.py进行设置,如上图比较而来:
之后对tencent.py(主程序)进行设置将其连接,例如:
注:这里需要导入自己的模块![在这里插入图片描述](https://i-blog.csdnimg.cn/blog_migrate/65f14fb5bbfeaf3b3c0f1641c26e8140.png)
之后通过命令提示窗口进入到spiders文件下再在命令提示窗口下输入
scrapy crawl itcast -o itcast.json
如图
注:这里本机的是ITcast文件下的spiders文件,如果是另一个爬虫文件那么这里的ITcast将需要改变。
之后即可对其网站进项爬取,结果如图:
这里会生成一个json文件