python使用scrapy_python之scrapy 基础使用以及错误方案

原标题:python之scrapy 基础使用以及错误方案

原先用的是selenium(后面有时间再写),这是第一次使用scrapy这个爬虫框架,所以记录一下这个心路历程,制作简单的爬虫其实不难,你需要的一般数据都可以爬取到。

下面是我的目录,除了main.py以外,都是代码自动生成的 :)。

各个目录作用:

1、sina是我自己创建的文件夹用来盛放整个项目的,随便起名字。

2、第一个sinaSpeder文件夹内,有一个scrapy.cfg配置文件和sinaSpeder的文件夹

scrapy.cfg:配置文件,不需要更改

sinaSpeder文件夹

3、第二个sinaSpeder文件夹

init.py :特定文件,指明二级first_spider目录为一个python模块

item.py:定义需要的item类【实验中需要用到】

pipelines.py:管道文件,传入item.py中的item类,清理数据,保存或入库

settings.py:设置文件,例如设置用户代理和初始下载延迟

spiders目录

4、spiders

init.py :特定文件,指明二级first_spider目录为一个python模块

sina.py:盛放自定义爬虫的文件,负责获取html的数据和传入pipline管道中进行数据存放等

废话不多说,开练~~

第一步创建爬虫项目:

第二步输入网址:

第三步修改代码:参考自:

items.py写入:

sina.py写入:

pipelines.py写入:

setting.py写入:

main.py写入:

运行有两种方法:

1、这里创建了main。py文件,所以可以直接运行这个文件。

2、通过命令行

第四步:

运行开始后,多出一个data文件夹,这就是要爬取的东西

注:问题总结

1、我最初是运行下面这个,发现报错,后来试试spiders中的sina.py文件,结果成功了

scrapy crawl sinaSpeder

2、如果你建立的工程名字和我的不一样,所有涉及项目名称的文件都要改过来,少一个都会报错。

3、爬虫运行有可能会被封ip使得无法再访问这个网站了!这就需要使用反爬虫技术,以后再讲。返回搜狐,查看更多

责任编辑:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值