scrapy爬取网页信息并清洗

最新推荐文章于 2024-06-26 14:09:02 发布

写python的鑫哥

最新推荐文章于 2024-06-26 14:09:02 发布

阅读量1k

点赞数

分类专栏：爬虫实战进阶文章标签： python 爬虫 json

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Leexin_love_Ling/article/details/110457992

版权

爬虫实战进阶专栏收录该内容

70 篇文章 263 订阅 ¥39.90 ¥99.00

订阅专栏

本文介绍了如何使用Python的scrapy框架创建一个爬虫项目，从指定网站抓取信息，并进行数据清洗。首先，通过scrapy startproject命令创建工程，然后创建爬虫文件scrapy genspider，定义目标数据字段。接着运行爬虫，得到html文件，再通过清洗代码生成json文件。最后，解析json文件，将数据转换为字符串。

摘要由CSDN通过智能技术生成

如何用爬虫的scrapy框架轻松的爬取想要的网页信息并清洗，看完下面的方法，你也可以！废话不多说，跟着小编一起来。

1.创建一个scrapy工程
打开pycharm，点击左下角的Terminal，就会自动锁定在当前的路径。
输入scrapy startproject TestMyScrapy，其中TestMyScrapy就是新建的工程名，直接运行。

scrapy startproject TestMyScrapy

2.创建你自己的爬虫文件
命令切换到你的新建工程根目录下：cd TeseMyScrapy
之后运行命令scrapy genspider New http://???.com

其中New随意命名，后面的http://???.com也由自己确定，只要后缀是.com就可以，直接运行。
如下图：
在这里插入图片描述
3.找到items.py文件
找到之后，在其内容中定义目标数据的字段，如图’title,t,text = scrapy.Fiele’，这里不细说。

4.找到自己定义的爬虫名称-New

了解本专栏

写python的鑫哥

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
scrapy爬取网页信息并清洗

如何用爬虫的scrapy框架轻松的爬取想要的网页信息并清洗，看完下面的方法，你也可以！废话不多说，跟着小编一起来。1.创建一个scrapy工程打开pycharm，点击左下角的Terminal，就会自动锁定在当前的路径。输入scrapy startproject TestMyScrapy，其中TestMyScrapy就是新建的工程名，直接运行。scrapy startproject TestMyScrapy2.创建你自己的爬虫文件命令切换到你的新建工程根目录下：cd TeseMyScrapy
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

写python的鑫哥 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。