原标题:python之scrapy 基础使用以及错误方案
原先用的是selenium(后面有时间再写),这是第一次使用scrapy这个爬虫框架,所以记录一下这个心路历程,制作简单的爬虫其实不难,你需要的一般数据都可以爬取到。
下面是我的目录,除了main.py以外,都是代码自动生成的 :)。
各个目录作用:
1、sina是我自己创建的文件夹用来盛放整个项目的,随便起名字。
2、第一个sinaSpeder文件夹内,有一个scrapy.cfg配置文件和sinaSpeder的文件夹
scrapy.cfg:配置文件,不需要更改
sinaSpeder文件夹
3、第二个sinaSpeder文件夹
init.py :特定文件,指明二级first_spider目录为一个python模块
item.py:定义需要的item类【实验中需要用到】
pipelines.py:管道文件,传入item.py中的item类,清理数据,保存或入库
settings.py:设置文件,例如设置用户代理和初始下载延迟
spiders目录
4、spiders
init.py :特定文件,指明二级first_spider目录为一个python模块
sina.py:盛放自定义爬虫的文件,负责获取html的数据和传入pipline管道中进行数据存放等
废话不多说,开练~~
第一步创建爬虫项目:
第二步输入网址:
第三步修改代码:参考自:
items.py写入:
sina.py写入:
pipelines.py写入:
setting.py写入:
main.py写入:
运行有两种方法:
1、这里创建了main。py文件,所以可以直接运行这个文件。
2、通过命令行
第四步:
运行开始后,多出一个data文件夹,这就是要爬取的东西
注:问题总结
1、我最初是运行下面这个,发现报错,后来试试spiders中的sina.py文件,结果成功了
scrapy crawl sinaSpeder
2、如果你建立的工程名字和我的不一样,所有涉及项目名称的文件都要改过来,少一个都会报错。
3、爬虫运行有可能会被封ip使得无法再访问这个网站了!这就需要使用反爬虫技术,以后再讲。返回搜狐,查看更多
责任编辑: