python爬虫scrapy框架无法生成csv文件是怎么回事_Python使用Scrapy框架爬取数据存入CSV文件(Python爬虫实战4)...

最新推荐文章于 2024-05-02 17:41:07 发布

weixin_39689394

最新推荐文章于 2024-05-02 17:41:07 发布

阅读量597

点赞数

文章标签： python爬虫scrapy框架无法生成csv文件是怎么回事

本文介绍了如何使用Python的Scrapy框架爬取简书热门专题的数据并保存到CSV文件中。从Scrapy的安装、项目创建到编写爬虫和数据处理，再到运行爬虫的过程中遇到的Twisted版本兼容性、中文数据编码、USER_AGENT等问题的解决方案。通过阅读，读者可以学习到Scrapy爬虫的实战技巧。

摘要由CSDN通过智能技术生成

1. Scrapy框架

Scrapy是python下实现爬虫功能的框架，能够将数据解析、数据处理、数据存储合为一体功能的爬虫框架。

2. Scrapy安装

1. 安装依赖包

yum install gcc libffi-devel python-devel openssl-devel -y

yum install libxslt-devel -y

2. 安装scrapy

pip install scrapy

pip install twisted==13.1.0

注意事项：scrapy和twisted存在兼容性问题，如果安装twisted版本过高，运行scrapy startproject project_name的时候会提示报错，安装twisted==13.1.0即可。

3. 基于Scrapy爬取数据并存入到CSV

3.1. 爬虫目标，获取简书中热门专题的数据信息，站点为https://www.jianshu.com/recommendations/collections，点击"热门"是我们需要爬取的站点，该站点使用了AJAX异步加载技术，通过F12键——Network——XHR，并翻页获取到页面URL地址为https://www.jianshu.com/recommendations/collections?page=2&order_by=hot，通过修改page=后面的数值即可访问多页的数据，如下图：