常见python机器学习中的代码块

本文介绍了Python在机器学习中的一些常见代码块,包括NLP数据清洗,如特殊字符处理和字符串检查;设置随机种子以确保代码复现性;调整预测结果分布以匹配训练集分布;以及创建count和bin特征来增强模型理解。
摘要由CSDN通过智能技术生成

前言

在python处理各种任务的时候,会有很多常用的代码块,对于模型来说,常见的代码块会有不同的

一、NLP清洗

1. 对于NLP的常见特殊字符的清洗和整理

puncts = ['。', ',', '.', '"', ':', ')', '(', '-', '!', '?', '|', ';', "'", '$', '&', 
          '/', '[', ']', '>', '%', '=', '#', '*', '+', '\\', '•', '~', '_', '{', '}', 
          '^', '`', '<', '°', '™', '♥', '½', '…', '“', '”', '–', '●', '²', '¬', '↑',
          '—', ':', '’', '☆', 'é', '¯', '♦', '‘', ')', '↓', '、', '(', ',', '♪', 
          '³', '❤', 'ï', '√']
          
#用于在原始的代码中,给每一个符号的前后各加一个空格。
def clean_text(x):
    x = str(x)
    for punct in puncts:
        x = x.replace(punct, f' {
     punct} ')
    return x

#将一定量的
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值