python爬虫之实战篇

爬下招聘信息
在这里插入图片描述

脚本如下

# -*- coding: utf-8 -*-
import re
import urllib.request
import urllib.error

url = "https://sou.zhaopin.com/?jl=653&jt=9000000000000,9000300000000,9000300110000&kw=Java%E5%BC%80%E5%8F%91&kt=3"
user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'  # 通过浏览器中输入chrome://version/获取,即用户代理
req = urllib.request.Request(url, headers={
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'})

try:
    response = urllib.request.urlopen(url)
    content = response.read().decode("utf-8")
    print(content)
    pattern = re.compile(
        '<span class="address".*?>(.*?)</span>.*?<span class="name".*?>(.*?)</span>.*?<p class="job_salary">(.*?)<i class="unit">(.*?)</i>.*?<div class=”comp.name".*?<a href.*?>(.*?)></a>',re.S)
    items = re.findall(pattern, content)
    dress = u"地址"
    jobs = u"职位信息"
    salary = u"薪资待遇"
    compay = u"公司名称"

    print(dress, jobs, salary, compay)
    for item in items:
        print(item[0], item[1], item[2], item[3], item[4])


except urllib.URLError as e:
    if hasattr(e, "code"):
        print(e.code)
    if hasattr(e, "code"):
        print(e.reason)

爬出来一堆数据,感觉还需要优化,欢迎提意见!
(随意截取一段^^)
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值