python最强文本预处理(清洗)

tong_brickmoving

已于 2022-01-24 16:43:05 修改

阅读量1.2k

点赞数

文章标签： python 自然语言处理

于 2021-06-17 22:26:07 首次发布

本文链接：https://blog.csdn.net/qq_44996650/article/details/118003266

版权

本文介绍了Python进行文本预处理的方法，特别强调了处理不同数据类型的重要性，如直接使用txt文件和处理由pandas读取的数据时，可能需要利用列表推导式和str()转换操作。

摘要由CSDN通过智能技术生成

python文本预处理

import pandas as pd
import numpy as np
import jieba
import re
from sklearn.model_selection import train_test_split
# import model_evaluation_utils as meu
dataset = pd.read_csv(r'E:\python\python文本挖掘\作业7\DataSet.csv')

dataset.info()

# 去掉评论空白数据
# dataset.review.fillna('', inplace=True)
dataset.dropna(inplace=True)
dataset.info()

reviews = np