文章目录
前言
在python处理各种任务的时候,会有很多常用的代码块,对于模型来说,常见的代码块会有不同的
一、NLP清洗
1. 对于NLP的常见特殊字符的清洗和整理
puncts = ['。', ',', '.', '"', ':', ')', '(', '-', '!', '?', '|', ';', "'", '$', '&',
'/', '[', ']', '>', '%', '=', '#', '*', '+', '\\', '•', '~', '_', '{', '}',
'^', '`', '<', '°', '™', '♥', '½', '…', '“', '”', '–', '●', '²', '¬', '↑',
'—', ':', '’', '☆', 'é', '¯', '♦', '‘', ')', '↓', '、', '(', ',', '♪',
'³', '❤', 'ï', '√']
#用于在原始的代码中,给每一个符号的前后各加一个空格。
def clean_text(x):
x = str(x)
for punct in puncts:
x = x.replace(punct, f' {
punct} ')
return x
#将一定量的