scrapy爬虫框架实例一，爬取自己博客

最新推荐文章于 2022-10-21 15:48:10 发布

weixin_33922670

最新推荐文章于 2022-10-21 15:48:10 发布

阅读量122

点赞数

文章标签：爬虫 python

　　本篇就是利用scrapy框架来抓取本人的博客，博客地址：http://www.cnblogs.com/shaosks

　　scrapy框架是个比较简单易用基于python的爬虫框架，相关文档：http://scrapy-chs.readthedocs.org/zh_CN/latest/

　　几个比较重要的部分：

　　items.py：用来定义需要保存的变量，其中的变量用Field来定义，有点像python的字典

　　pipelines.py：用来将提取出来的Item进行处理，处理过程按自己需要进行定义

　　spiders：定义自己的爬虫

　　爬虫的类型也有好几种：

　　1）spider:最基本的爬虫，其他的爬虫一般是继承了该最基本的爬虫类，提供访问url，返回response的功能，会默认调用parse方法

　　2）CrawlSpider：继承spider的爬虫，实际使用比较多，设定rule规则进行网页的跟进与处理，注意点：编写爬虫的规则的时候避免使用parse名，因为这会覆盖继承的spider的的方法parse造成错误。其中比较重要的是对Rule的规则的编写，要对具体的网页的情况进行分析。

　　3）XMLFeedSpider 与 CSVFeedSpider

　　代码实现：

　　items.py下的

　　

　　pipelines.py

　　

　　myspider.py

　　

　　settings.py

　　

　　执行命令导出csv文件

　　D:\work\scrapy\Code\cnblog> scrapy crawl myspider -o spider.csv

结果数据

要获取动态渲染的数据， scrapy框架本身没有获取这种数据的功能，要利用第三方库scrapy-splash，下载：https://pypi.python.org/pypi/scrapy-splash#downloads

这个以后再做.

weixin_33922670

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
scrapy爬虫框架实例一，爬取自己博客

　　本篇就是利用scrapy框架来抓取本人的博客，博客地址：http://www.cnblogs.com/shaosks　　scrapy框架是个比较简单易用基于python的爬虫框架，相关文档：http://scrapy-chs.readthedocs.org/zh_CN/latest/ 　　几个比较重要的部分：　　items.py：用来定义需要保存的变量，其中的变量用Field...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。