【数据挖掘与分析】python网络爬虫入门学习及实践记录 | part02-网络请求(6-10)

端午回家呆了几天,完全放松。收假来赶个课程汇报,所以晚上没能及时跟上学习节奏,碰巧师兄分享学习进度,为所动。考试周正好大部分课程开始结课,可以有大块的时间来学习。下面介绍一下学习目标:


这篇博文会完成这部分视频的笔记和练习。


6-【作业】内涵段子爬虫作业

这里按照老师给的url:www.neihanshequ.com已经找不到网址了,可能是已经停止运营。所以选择天涯完成练习(http://bbs.tianya.cn/list.jsp?item=develop&nextid=1560313772000)这里选择了天涯社区的财经频道进行挖取,通过chrome浏览器的调试台可以看出,获取更多信息的链接为thttp://bbs.tianya.cn/list.jsp?item=develop&nextid=1560313772000,于是点开这个链接在右侧的请求头中找到需要抓取的url,参照上节练习,伪造一层请求头,get请求方式一致。顺利拿到本页代码,这里思考一个问题,为什么拉勾网爬取到的是json,而这个练习中爬取到的是html代码,如果需要进一步的拿到需要的信息应该怎么做?这里贴出拉勾网从控制台拿到的json数据格式化后的内容,可以看出来,确实已经拿到了职位信息,进一步的就是存储的问题。

 而这个练习中,仍然存在是html代码,可以自行补充一个练习,比如爬58或者智联招聘、boss直聘的职位信息。

 先拿boss分析一波,发现,职位搜索页,找到都是代码,点击下一页分析后才发现,boss把职位信息先编码,后拿到的职位信息就都是编码对应的信息,试着拿了一下编码信息,

 

 格式化后发现,每个职位对应着不同码,职位城市可以编码,公司呢?这里不禁想到这个问题,我决定稍微深挖一下,另外在

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值