Python利用正则表达条件性创建dataframe中新的features和column列

该博客介绍了如何使用Python的正则表达式在pandas DataFrame中创建新特征和列。通过检查职位名称,创建了'教师'(是/否)和'类别'(幼儿/小学/初中/高中/其他)这两列。二分式匹配用于识别包含'teacher'相关词汇的职位,而多项式分配则根据特定关键字匹配不同的类别。
摘要由CSDN通过智能技术生成

目标

根据职位名称创建新的列,命名为教师(是/否);类别(幼儿/小学/初中/高中/其他)。
在这里插入图片描述

二分式匹配

  • 利用正则表达。如果职位包含英文teacher,Teacher,教师和老师,则为新建列教师添加元素(是)否则为(否)

代码如下:

# Create column 教师

teacher_list = 'teacher|Teacher|教师|老师'
regexp_value = re.compile(r'{}'.format(teacher_list))
job["教师"] = ["是" if regexp_value.search(ele) else "否" for ele in job["职位"]]

多项式分配

  • 同样利用正则表达。如果职位包含
    • 0
      点赞
    • 0
      收藏
      觉得还不错? 一键收藏
    • 0
      评论
    评论
    添加红包

    请填写红包祝福语或标题

    红包个数最小为10个

    红包金额最低5元

    当前余额3.43前往充值 >
    需支付:10.00
    成就一亿技术人!
    领取后你会自动成为博主和红包主的粉丝 规则
    hope_wisdom
    发出的红包
    实付
    使用余额支付
    点击重新获取
    扫码支付
    钱包余额 0

    抵扣说明:

    1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
    2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

    余额充值