如何处理一个文本数据集_文本分析中数据集处理步骤-CSDN博客

本文链接：https://blog.csdn.net/MoneyFxxker/article/details/94571884

目前有大量的数据集，但是不一定每个数据集对于你来说是一上手就可以使用的。而数据预处理对于一个文本分类的结果来说，是非常重要的。目前我记录一下我的数据预处理的一些方式：
文本数据集有许多的不同的语种，就目前而言，中文，英文这些相对使用量大的语言，那么这样就分为大语种和小语种有不同的处理方式了。
大语种的话现在已经有许多停用词表，像类似的套路就是：
1 中文先分词，分词后使用停用词表将部分无效词语去除。
2 英文无需分词，直接使用停用词表将无效词语去除。
小语种由于没有停用词表，则去除里面的一些标点符号和其他一些乱码字符，当然识别出语种，也可以将停用词表翻译过来用，这算是一个方法。
去除乱码字符的代码如下：

def predata(x):
    a = []
    for i in range(x.shape[0]):
        string = re.sub('[^a-zA-Z]', ' ', x[i]).lower()
        string = re.sub(r"\s{2,}", " ", string)
        a.append(string)

再就是如果没有分标签的话，可以用下面的方法分出代码：

def make_label(df):
    df["sentiment"] = df["label"].apply(lambda x: 1 if x == "Positive" else 0)

当然，如果说你需要使用词向量这一部分，需要根据不同的词向量库输入，分词成为不同的结果。
word2vec使用的是[“a”,’'b",“c”]这种形式的输入，如果不是这种形式，可以使用nltk的word_tokenize(sen)函数将句子先转换一下。
大概的思路就是这样的~以后如果有别的再补充吧