配置准备
实现准备了下xpath helper插件,这是个谷歌浏览器上的小插件,帮助使用F12(额,我也不知道那是个啥)在element中定位元素。
目标
爬取 http://www.itcast.cn/channel/teacher.shtml#ajavaee 上老师的信息
开始实现
Step1
利用xpath helper在页面的element中定位到所要爬取的数据,分别是教师姓名、职称、简介
记下这几个地址,稍后有用
Step2
创建项目
创建爬虫
Step3
修改items.py文件
应该是创建一个“类”吧
这个是用来接受爬下来的数据的
修改如下
Step4
现在正式开始吧
打开spiders下的爬虫文件(?) itcast.py
修改如下
这是执行打印操作的数据
但我们需要把它存储下来,所以稍微修改下
运行一下试试
scrapy crawl itcast
基本ok
Step5
保存数据
有以下几种方式
- json格式,默认为Unicode编码
scrapy crawl itcast -o teacher.json - json lines格式,默认为Unicode编码
scrapy crawl itcast -o teacher.jsonl - scv逗号表达式,可用Excel打开
scrapy crawl itcast -o teacher.csv - xml格式
scrapy crwal itcast -o teacher.xml
#其中 -o 表示转换格式输出
Step6
验收成果
打开刚刚转换的几个文件
随便打开一个看看吧
Victory!!!
总结
又前进了一点 TAT
感jio不错
明天继续
-------------------------------------------------------------------------------------------------------------------------------end