简单抓取智联招聘特定数据

环境:win7 、pycharm、python2

所用到的库:urllib2 、 re

#coding:utf-8  #解决编码问题
import urllib2 #与请求url相关操作的模块
import re #通过正则表达式进行字符串处理的模块
def search(name):
    url = "https://sou.zhaopin.com/jobs/searchresult.ashx?kw=" + name + "&sm=0&p=1" #url中的内容是从浏览器搜索框中赋值中的内容,将关键字python替换成name参数
    response = urllib2.urlopen(url).read() #抓取一个网页所有数据
    restr = "<em>(\\d+)</em>" #正则表达式 我们所抓取的数据是一个数字所以要用 (\\d+)
    regex = re.compile(restr, re.IGNORECASE)  # 进行预编译(目的加快速度),忽略大小写
    mylist = regex.findall(response)  # 在response中查找所有数据
    print mylist
    print  mylist[0] #彻底将数据剥离出来

#调用函数search
search("python")

运行如下:

源码除注释外部分解释:

restr :所要抓取的数据在网页中查看在火狐浏览器中按F12出现以下截图右侧的源代码,通过右上角指针图标查找所要数据在<em>所要数据</em>中,便通过正则表达式是抓取,所要数据。


假若用以上方式运行出现“502”情况,则表明网页屏蔽(服务器屏蔽),这时我们就要用 selenium 网页测试的框架,去进行浏览器的模拟,他可以调用所有的浏览器。

环境:win7 、pycharm、python2

所用到的库:selenium 、 re

便将代码更改为:

#coding:utf-8  #解决编码问题
import selenium #测试的框架
import selenium.webdriver #模拟浏览器
import re #正则表达式
def searchname(name):
    url="https://sou.zhaopin.com/jobs/searchresult.ashx?kw="+name+"&sm=0&p=1"
    driver = selenium.webdriver.Firefox()#调用火狐浏览器
    driver.get(url)#访问链接
    pagescore = driver.page_source#获取网站源代码
    restr = "<em>(\\d+)</em>"
    regex = re.compile(restr, re.IGNORECASE)  # 进行预编译(目的加快速度),忽略大小写
    mylist = regex.findall(pagescore)  # 查找所有
    print  mylist[0]
    driver.close()#关闭浏览器

searchname("python")

运行如下:


以上内容若有错误或用词不当,请留言指正,谢谢。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值