正则的应用--智联招聘--parse.urlencode/request/xlwt

本文介绍了Python中使用正则表达式、`parse.urlencode`进行URL编码以及模拟请求的方法,并展示了如何结合`fake_useragent`库获取随机UserAgent。此外,还涉及基本数学函数的使用和元组转列表操作,通过完整代码演示了这些技术的应用。
摘要由CSDN通过智能技术生成
一.包的引用
1.正则import re
2.请求from urllib import request, parse
3. xlwt 操作Excel表格

import xlwt

例如:

# 1.创建 一个工作簿对象
    workbook = xlwt.Workbook(encoding='utf-8')
    # 2.添加一张表
    sheet = workbook.add_sheet('python职位表')
    # 3.向表中添加数据
    sheet.write(0, 0, '职位名称')
    sheet.write(0, 1, '工作地点')
    sheet.write(0, 2, '公司名称')
    sheet.write(0, 3, '薪资待遇')
    sheet.write(0, 4, '发布日期')
    # 4.保存
    workbook.save('python职位信息.xls')

4.获取useragent

法一:

from fake_useragent import UserAgent

useragent = UserAgent()

法二:

获取随机的UserAgent

from random import choice
二.代码实现功能介绍
    1.初始化函数
        kw搜索关键词,基础的url,请求头,用来记录html源代码属性,total_page总页码
    2.start函数
        爬虫的启动函数
    3.get_html函数
        根据url地址,获取html源代码,转换为str类型,并赋值给self.html
    4.parse_total函数
        从html源代码中,根据正则提取职位总个数,计算总页码,math.ceil()向上取整
    5.parse_info函数
        根据总页数,获取每一页的html源代码,根据正则提取职位信息,并对数据进行简单的清洗工作
        将数据存储表格中
    6.fillter函数
        将正则匹配到数据进行清洗,

    三.基本知识

    1.   parse.urlencode 对url进行编码

        例如:data = parse.urlencode(data)  

    2.引入math函数

         计算总页数
        import math
       ceil() 向上取整
        total_zw//60 向下取整
        total_page = math.ceil(total_zw/60)

    3.元组转换为列表
       例如: rs_list = list(info)

     4.转换html utf-8 gbk gb2312
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值