数据预处理_旅游评论数据 tf-idf分析一条评论存放一个文档吗-CSDN博客

本文链接：https://blog.csdn.net/qq_40377498/article/details/115511528

本文介绍了一个包含正面和负面评论的影评数据集，数据分为pos和neg文件，每份5331条。在预处理阶段，以word为单位分词，保留标点符号，构建了word2id并pad到相同长度。接着，利用word2vec或glove生成词向量，初始化词向量权重采用数据集的均值和方差。最后，通过K折交叉验证划分训练集、验证集和测试集。

摘要由CSDN通过智能技术生成

数据预处理

数据集

Movie Review Data链接，包含正面和负面评论的影评数据集，数据集分为两个文件：pos和neg，每个文件包含了5331条影视评论。分类类别为正面、负面（二分类）。

预处理

数据集中包含了常见的标点符号，在处理过程中，并没有对标签符号进行去除。以word为单位，按空格来对数据集进行分词。求取句子最大长度，同时构建word2id，并用0将所有句子pad为最大长度。

		pos_samples = open(self.path + "/rt-polarity.pos", errors="ignore").readlines()
        neg_samples = open(self.path + "/rt-polarity.neg", errors="ignore").readlines()
        datasets = pos_samples + neg_samples  # 数据集
        labels = [1] * len(pos_samples) + [0] * len(neg_samples)  # 对应标签
        # 对数据集进行处理
        # data_s = [nltk.word_tokenize(data) for data in data_s]  #进行分词  英文可选  中文一般需要
        datas = [sample.split() for sample in datasets]  # 英文文本进行分词 一般用空格进行划分


        self.max_sample_length = max([len(sample) for sample in datas])  # 求取句子最大长度
        # 生成word2id
        word2id = {
   "<pad>": 0}  # 构建词id，建立第一个字符pad
        for i, sample in enumerate(datas):
            for j, word in enumerate(sample):
                if word2id.get(word) is None:
                    word2id[word] = len(word2id)
                datas[i][j] = word2id[word]#将数据集中的word变为id形式
            datas[