Python入门爬虫1 腾讯招聘网站岗位爬取

叫我小仙女嘛

于 2019-03-31 21:41:40 发布

阅读量1.9k

点赞数 2

分类专栏： Python

本文链接：https://blog.csdn.net/qq_43501509/article/details/88936271

版权

作为一个热爱学习的社会主义接班人，接下来一段时间我将持续更新python爬虫这一块的内容在博客里将会持续并认真的记录我的学习过程首先介绍一下我的学习环境: win10+Anaconda+Pycharm，默认会一些python的基础知识希望我的博客能够给你带来帮助 - ̗̀(๑ᵔ⌔ᵔ๑)下面进入正题：爬取网站链接：https://hr.tencent.com/social.php过程主要...

摘要由CSDN通过智能技术生成

作为一个热爱学习的社会主义接班人，接下来一段时间我将持续更新python爬虫这一块的内容
在博客里将会持续并认真的记录我的学习过程
首先介绍一下我的学习环境: win10+Anaconda+Pycharm，默认会一些python的基础知识
希望我的博客能够给你带来帮助 - ̗̀(๑ᵔ⌔ᵔ๑)
下面进入正题：

爬取网站链接：https://hr.tencent.com/social.php

过程主要分为三部分：
1.获取整体页面数据
2.抽取想要的数据
3.数据存储

在开始之前，你要学会安装第三方库，pycharm的同学可以在终端(Terminal)里使用pip install + 库名进行安装

获取页面整体数据
1.初始化函数，使用请求头进行访问
大括号内输入你自己浏览器的请求头

获取请求头的方法：
打开一个网页，按F12（或者Fn+F12）,刷新一下，选择network，在左侧随便选择一个(一般里面都可以找到，没有的话你就多换两个试试),右侧可以找到user-agent，这个就是你电脑浏览器的请求头啦~~

在这里插入图片描述
如下是我定义的请求头

def __init__(self):
	self.headers = {'User-Agent':"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.81 Safari/537.36" }

2.选择一个你喜欢的岗位和地区，然后翻页观察一下网址有什么变化吧~
第一页： https://hr.tencent.com/position.php?key

最低0.47元/天解锁文章

叫我小仙女嘛

关注

2
点赞
踩
13

收藏

觉得还不错? 一键收藏
1
评论
Python入门爬虫1 腾讯招聘网站岗位爬取

作为一个热爱学习的社会主义接班人，接下来一段时间我将持续更新python爬虫这一块的内容在博客里将会持续并认真的记录我的学习过程首先介绍一下我的学习环境: win10+Anaconda+Pycharm，默认会一些python的基础知识希望我的博客能够给你带来帮助 - ̗̀(๑ᵔ⌔ᵔ๑)下面进入正题：爬取网站链接：https://hr.tencent.com/social.php过程主要...
复制链接

扫一扫