【数据挖掘与分析】python网络爬虫入门学习及实践记录 | part02-网络请求（6-10）

云胡实验室

于 2019-06-12 21:26:04 发布

阅读量281

点赞数

分类专栏：学编程使我头秃【学记汇总】数据挖掘与分析文章标签：划水学爬虫日常填坑有点东西编程向

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_28930251/article/details/91492406

版权

端午回家呆了几天，完全放松。收假来赶个课程汇报，所以晚上没能及时跟上学习节奏，碰巧师兄分享学习进度，为所动。考试周正好大部分课程开始结课，可以有大块的时间来学习。下面介绍一下学习目标：

这篇博文会完成这部分视频的笔记和练习。

6-【作业】内涵段子爬虫作业

这里按照老师给的url：www.neihanshequ.com已经找不到网址了，可能是已经停止运营。所以选择天涯完成练习（http://bbs.tianya.cn/list.jsp?item=develop&nextid=1560313772000）这里选择了天涯社区的财经频道进行挖取，通过chrome浏览器的调试台可以看出，获取更多信息的链接为thttp://bbs.tianya.cn/list.jsp?item=develop&nextid=1560313772000，于是点开这个链接在右侧的请求头中找到需要抓取的url，参照上节练习，伪造一层请求头，get请求方式一致。顺利拿到本页代码，这里思考一个问题，为什么拉勾网爬取到的是json，而这个练习中爬取到的是html代码，如果需要进一步的拿到需要的信息应该怎么做？这里贴出拉勾网从控制台拿到的json数据格式化后的内容，可以看出来，确实已经拿到了职位信息，进一步的就是存储的问题。

而这个练习中，仍然存在是html代码，可以自行补充一个练习，比如爬58或者智联招聘、boss直聘的职位信息。

先拿boss分析一波，发现，职位搜索页，找到都是代码，点击下一页分析后才发现，boss把职位信息先编码，后拿到的职位信息就都是编码对应的信息，试着拿了一下编码信息，

格式化后发现，每个职位对应着不同码，职位城市可以编码，公司呢？这里不禁想到这个问题，我决定稍微深挖一下，另外在

最低0.47元/天解锁文章

云胡实验室

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【数据挖掘与分析】python网络爬虫入门学习及实践记录 | part02-网络请求（6-10）

端午回家呆了几天，完全放松。收假来赶个课程汇报，所以晚上没能及时跟上学习节奏，碰巧师兄分享学习进度，为所动。考试周正好大部分课程开始结课，可以有大块的时间来学习。下面介绍一下学习目标：这篇博文会完成这部分视频的笔记和练习。6-【作业】内涵段子爬虫作业这里按照老师给的url：www.neihanshequ.com已经找不到网址了，可能是已经停止运营。所以选择天涯完成练习（http:/...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。