简单抓取智联招聘特定数据

最新推荐文章于 2023-08-17 23:03:14 发布

高智商的坏蛋

最新推荐文章于 2023-08-17 23:03:14 发布

阅读量2.2k

点赞数 1

分类专栏： python爬虫学习之路

本文链接：https://blog.csdn.net/qq_36381299/article/details/80396117

版权

python爬虫学习之路专栏收录该内容

12 篇文章 0 订阅

订阅专栏

环境：win7 、pycharm、python2、

所用到的库：urllib2 、 re

#coding:utf-8  #解决编码问题
import urllib2 #与请求url相关操作的模块
import re #通过正则表达式进行字符串处理的模块
def search(name):
    url = "https://sou.zhaopin.com/jobs/searchresult.ashx?kw=" + name + "&sm=0&p=1" #url中的内容是从浏览器搜索框中赋值中的内容，将关键字python替换成name参数
    response = urllib2.urlopen(url).read() #抓取一个网页所有数据
    restr = "<em>(\\d+)</em>" #正则表达式 我们所抓取的数据是一个数字所以要用 (\\d+)
    regex = re.compile(restr, re.IGNORECASE)  # 进行预编译（目的加快速度），忽略大小写
    mylist = regex.findall(response)  # 在response中查找所有数据
    print mylist
    print  mylist[0] #彻底将数据剥离出来

#调用函数search
search("python")

运行如下：

源码除注释外部分解释：

restr :所要抓取的数据在网页中查看在火狐浏览器中按F12出现以下截图右侧的源代码，通过右上角指针图标查找所要数据在<em>所要数据</em>中，便通过正则表达式是抓取，所要数据。

假若用以上方式运行出现“502”情况，则表明网页屏蔽（服务器屏蔽），这时我们就要用 selenium 网页测试的框架，去进行浏览器的模拟，他可以调用所有的浏览器。

环境：win7 、pycharm、python2、

所用到的库：selenium 、 re

便将代码更改为：

#coding:utf-8  #解决编码问题
import selenium #测试的框架
import selenium.webdriver #模拟浏览器
import re #正则表达式
def searchname(name):
    url="https://sou.zhaopin.com/jobs/searchresult.ashx?kw="+name+"&sm=0&p=1"
    driver = selenium.webdriver.Firefox()#调用火狐浏览器
    driver.get(url)#访问链接
    pagescore = driver.page_source#获取网站源代码
    restr = "<em>(\\d+)</em>"
    regex = re.compile(restr, re.IGNORECASE)  # 进行预编译（目的加快速度），忽略大小写
    mylist = regex.findall(pagescore)  # 查找所有
    print  mylist[0]
    driver.close()#关闭浏览器

searchname("python")

运行如下：