Python使用Scrapy框架爬取数据存入CSV文件

最新推荐文章于 2024-06-22 16:33:22 发布

Python 学习者

最新推荐文章于 2024-06-22 16:33:22 发布

阅读量8.4k

点赞数 2

分类专栏： python

python 专栏收录该内容

1471 篇文章 282 订阅

订阅专栏

1. Scrapy框架

　　Scrapy是python下实现爬虫功能的框架，能够将数据解析、数据处理、数据存储合为一体功能的爬虫框架。

2. Scrapy安装

1. 安装依赖包

2. 安装scrapy

注意事项：scrapy和twisted存在兼容性问题，如果安装twisted版本过高，运行scrapy startproject project_name的时候会提示报错，安装twisted==13.1.0即可。

3. 基于Scrapy爬取数据并存入到CSV

3.1. 爬虫目标，获取简书中热门专题的数据信息，站点为https://www.jianshu.com/recommendations/collections，点击"热门"是我们需要爬取的站点，该站点使用了AJAX异步加载技术，通过F12键——Network——XHR，并翻页获取到页面URL地址为https://www.jianshu.com/recommendations/collections?page=2&order_by=hot，通过修改page=后面的数值即可访问多页的数据，如下图：

3.2. 爬取内容

　　需要爬取专题的内容包括：专题内容、专题描述、收录文章数、关注人数，Scrapy使用xpath来清洗所需的数据，编写爬虫过程中可以手动通过lxml中的xpath获取数据，确认无误后再将其写入到scrapy代码中，区别点在于，scrapy需要使用extract()函数才能将数据提取出来。

3.3 创建爬虫项目

3.4 代码内容

1. items.py代码内容,定义需要爬取数据字段

2. piders/jianshu_hot_topic_spider.py代码内容，实现数据获取的代码逻辑，通过xpath实现

3. pipelines文件内容，定义数据存储的方式，此处定义数据存储的逻辑，可以将数据存储载MySQL数据库，MongoDB数据库，文件，CSV，Excel等存储介质中，如下以存储载CSV为例：

4. 修改settings文件，

3.5 运行scrapy爬虫

　　返回到项目scrapy项目创建所在目录，运行scrapy crawl spider_name即可，如下：

查看/root/zhuanti.csv中的数据，即可实现。

4. 遇到的问题总结

1. twisted版本不见容，安装过新的版本导致，安装Twisted (13.1.0)即可

2. 中文数据无法写入，提示'ascii'错误，通过设置python的encoding为utf即可，如下：

3. 爬虫无法获取站点数据，由于headers导致，载settings.py文件中添加USER_AGENT变量，如：

USER_AGENT="Mozilla/5.0 (X11; Linux x86_64; rv:52.0) Gecko/20100101 Firefox/52.0"

Scrapy使用过程中可能会遇到结果执行失败或者结果执行不符合预期，其现实的logs非常详细，通过观察日志内容，并结合代码+网上搜索资料即可解决。

Python 学习者

关注

2
点赞
踩
12

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。