爬虫笔记190127

最新推荐文章于 2024-08-10 10:09:09 发布

Morning_17

最新推荐文章于 2024-08-10 10:09:09 发布

阅读量100

点赞数

分类专栏：软云实验室记录文章标签：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42740852/article/details/86664982

版权

软云实验室记录专栏收录该内容

9 篇文章 0 订阅

订阅专栏

ITcast小爬虫

配置准备
目标
开始实现
总结

配置准备

实现准备了下xpath helper插件，这是个谷歌浏览器上的小插件，帮助使用F12（额，我也不知道那是个啥）在element中定位元素。

目标

爬取 http://www.itcast.cn/channel/teacher.shtml#ajavaee 上老师的信息

开始实现

Step1

利用xpath helper在页面的element中定位到所要爬取的数据，分别是教师姓名、职称、简介
在这里插入图片描述

记下这几个地址，稍后有用

Step2

创建项目
创建爬虫

Step3

修改items.py文件
应该是创建一个“类”吧
这个是用来接受爬下来的数据的
修改如下
在这里插入图片描述

Step4

现在正式开始吧
打开spiders下的爬虫文件(?) itcast.py
修改如下
在这里插入图片描述
这是执行打印操作的数据

但我们需要把它存储下来，所以稍微修改下

运行一下试试
scrapy crawl itcast

基本ok

Step5

保存数据
有以下几种方式

json格式，默认为Unicode编码
scrapy crawl itcast -o teacher.json
json lines格式，默认为Unicode编码
scrapy crawl itcast -o teacher.jsonl
scv逗号表达式，可用Excel打开
scrapy crawl itcast -o teacher.csv
xml格式
scrapy crwal itcast -o teacher.xml

#其中 -o 表示转换格式输出

Step6

验收成果
打开刚刚转换的几个文件
在这里插入图片描述
随便打开一个看看吧

在这里插入图片描述
Victory！！！

总结

又前进了一点 TAT
感jio不错
明天继续
-------------------------------------------------------------------------------------------------------------------------------end

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫笔记190127

ITcast小爬虫配置准备目标配置准备实现准备了下xpath helper插件，这是个谷歌浏览器上的小插件，帮助使用F12（额，我也不知道那是个啥）在element中定位元素。目标爬取 http://www.itcast.cn/channel/teacher.shtml#ajavaee 上老师的信息...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。