python使用scrapy_python之scrapy 基础使用以及错误方案

最新推荐文章于 2024-05-28 19:20:57 发布

weixin_39612540

最新推荐文章于 2024-05-28 19:20:57 发布

阅读量135

点赞数

文章标签： python使用scrapy

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39612540/article/details/111836689

版权

原标题：python之scrapy 基础使用以及错误方案

原先用的是selenium(后面有时间再写)，这是第一次使用scrapy这个爬虫框架，所以记录一下这个心路历程，制作简单的爬虫其实不难，你需要的一般数据都可以爬取到。

下面是我的目录，除了main.py以外，都是代码自动生成的 :)。

各个目录作用：

1、sina是我自己创建的文件夹用来盛放整个项目的，随便起名字。

2、第一个sinaSpeder文件夹内，有一个scrapy.cfg配置文件和sinaSpeder的文件夹

scrapy.cfg：配置文件，不需要更改

sinaSpeder文件夹

3、第二个sinaSpeder文件夹

init.py ：特定文件，指明二级first_spider目录为一个python模块

item.py：定义需要的item类【实验中需要用到】

pipelines.py：管道文件，传入item.py中的item类，清理数据，保存或入库

settings.py：设置文件，例如设置用户代理和初始下载延迟

spiders目录

4、spiders

init.py ：特定文件，指明二级first_spider目录为一个python模块

sina.py：盛放自定义爬虫的文件，负责获取html的数据和传入pipline管道中进行数据存放等

废话不多说，开练~~

第一步创建爬虫项目：

第二步输入网址：

第三步修改代码：参考自：

items.py写入：

sina.py写入：

pipelines.py写入：

setting.py写入：

main.py写入:

运行有两种方法：

1、这里创建了main。py文件，所以可以直接运行这个文件。

2、通过命令行

第四步：

运行开始后，多出一个data文件夹，这就是要爬取的东西

注：问题总结

1、我最初是运行下面这个，发现报错，后来试试spiders中的sina.py文件，结果成功了

scrapy crawl sinaSpeder

2、如果你建立的工程名字和我的不一样，所有涉及项目名称的文件都要改过来，少一个都会报错。

3、爬虫运行有可能会被封ip使得无法再访问这个网站了！这就需要使用反爬虫技术，以后再讲。返回搜狐，查看更多

责任编辑：

weixin_39612540

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python使用scrapy_python之scrapy 基础使用以及错误方案

原标题：python之scrapy 基础使用以及错误方案原先用的是selenium(后面有时间再写)，这是第一次使用scrapy这个爬虫框架，所以记录一下这个心路历程，制作简单的爬虫其实不难，你需要的一般数据都可以爬取到。下面是我的目录，除了main.py以外，都是代码自动生成的 :)。各个目录作用：1、sina是我自己创建的文件夹用来盛放整个项目的，随便起名字。2、第一个sinaSpeder...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。