如何处理一个文本数据集

目前有大量的数据集,但是不一定每个数据集对于你来说是一上手就可以使用的。而数据预处理对于一个文本分类的结果来说,是非常重要的。目前我记录一下我的数据预处理的一些方式:
文本数据集有许多的不同的语种,就目前而言,中文,英文这些相对使用量大的语言,那么这样就分为大语种和小语种有不同的处理方式了。
大语种的话现在已经有许多停用词表,像类似的套路就是:
1 中文先分词,分词后使用停用词表将部分无效词语去除。
2 英文无需分词,直接使用停用词表将无效词语去除。
小语种由于没有停用词表,则去除里面的一些标点符号和其他一些乱码字符,当然识别出语种,也可以将停用词表翻译过来用,这算是一个方法。
去除乱码字符的代码如下:

def predata(x):
    a = []
    for i in range(x.shape[0]):
        string = re.sub('[^a-zA-Z]', ' ', x[i]).lower()
        string = re.sub(r"\s{2,}", " ", string)
        a.append(string)

再就是如果没有分标签的话,可以用下面的方法分出代码:

def make_label(df):
    df["sentiment"] = df["label"].apply(lambda x: 1 if x == "Positive" else 0)

当然,如果说你需要使用词向量这一部分,需要根据不同的词向量库输入,分词成为不同的结果。
word2vec使用的是[“a”,’'b",“c”]这种形式的输入,如果不是这种形式,可以使用nltk的word_tokenize(sen)函数将句子先转换一下。
大概的思路就是这样的~以后如果有别的再补充吧

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值