目前有大量的数据集,但是不一定每个数据集对于你来说是一上手就可以使用的。而数据预处理对于一个文本分类的结果来说,是非常重要的。目前我记录一下我的数据预处理的一些方式:
文本数据集有许多的不同的语种,就目前而言,中文,英文这些相对使用量大的语言,那么这样就分为大语种和小语种有不同的处理方式了。
大语种的话现在已经有许多停用词表,像类似的套路就是:
1 中文先分词,分词后使用停用词表将部分无效词语去除。
2 英文无需分词,直接使用停用词表将无效词语去除。
小语种由于没有停用词表,则去除里面的一些标点符号和其他一些乱码字符,当然识别出语种,也可以将停用词表翻译过来用,这算是一个方法。
去除乱码字符的代码如下:
def predata(x):
a = []
for i in range(x.shape[0]):
string = re.sub('[^a-zA-Z]', ' ', x[i]).lower()
string = re.sub(r"\s{2,}", " ", string)
a.append(string)
再就是如果没有分标签的话,可以用下面的方法分出代码:
def make_label(df):
df["sentiment"] = df["label"].apply(lambda x: 1 if x == "Positive" else 0)
当然,如果说你需要使用词向量这一部分,需要根据不同的词向量库输入,分词成为不同的结果。
word2vec使用的是[“a”,’'b",“c”]这种形式的输入,如果不是这种形式,可以使用nltk的word_tokenize(sen)函数将句子先转换一下。
大概的思路就是这样的~以后如果有别的再补充吧