爬虫笔记190127

配置准备

实现准备了下xpath helper插件,这是个谷歌浏览器上的小插件,帮助使用F12(额,我也不知道那是个啥)在element中定位元素。

目标

爬取 http://www.itcast.cn/channel/teacher.shtml#ajavaee 上老师的信息

开始实现

Step1

利用xpath helper在页面的element中定位到所要爬取的数据,分别是教师姓名、职称、简介
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
记下这几个地址,稍后有用
在这里插入图片描述

Step2

创建项目
创建爬虫

Step3

修改items.py文件
应该是创建一个“类”吧
这个是用来接受爬下来的数据的
修改如下
在这里插入图片描述

Step4

现在正式开始吧
打开spiders下的爬虫文件(?) itcast.py
修改如下
在这里插入图片描述
这是执行打印操作的数据
在这里插入图片描述
但我们需要把它存储下来,所以稍微修改下
在这里插入图片描述
在这里插入图片描述
运行一下试试
scrapy crawl itcast
在这里插入图片描述
基本ok

Step5

保存数据
有以下几种方式

  • json格式,默认为Unicode编码
    scrapy crawl itcast -o teacher.json
  • json lines格式,默认为Unicode编码
    scrapy crawl itcast -o teacher.jsonl
  • scv逗号表达式,可用Excel打开
    scrapy crawl itcast -o teacher.csv
  • xml格式
    scrapy crwal itcast -o teacher.xml

#其中 -o 表示转换格式输出

Step6

验收成果
打开刚刚转换的几个文件
在这里插入图片描述
随便打开一个看看吧

在这里插入图片描述
Victory!!!

总结

又前进了一点 TAT
感jio不错
明天继续
-------------------------------------------------------------------------------------------------------------------------------end

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值