（NLP）文本预处理

最新推荐文章于 2025-03-08 18:34:37 发布

lambda99

最新推荐文章于 2025-03-08 18:34:37 发布

阅读量1.6k

点赞数

分类专栏：自然语言处理文章标签：自然语言处理 python 机器学习

本文链接：https://blog.csdn.net/qq_43871173/article/details/125731254

版权

文本预处理分词 jieba 词表新闻数据集

关键词由CSDN通过智能技术生成

读取文本数据集

以今日头条中文新闻（短文本）分类数据集为例。其包含38万条短新闻，包含于15个类中。
头条新闻数据集下载

数据格式如下所示：

6551700932705387022_!_101_!_news_culture_!_京城最值得你来场文化之旅的博物馆_!_保利集团,马未都,中国科学技术馆,博物馆,新中国

每行为一条数据，以_!_分割的个字段，从前往后分别是新闻ID，分类code（见下文），分类名称（见下文），新闻字符串（仅含标题），新闻关键词。

下面读取数据，并且切除ID，分类code，分类名称，新闻关键字，只保留标题文本。

# 导入包
import re

# 定义要去掉的标点
punc = '[~`!#$%^&*()_+-=|\';":/.,?><~·！@#￥%……&*（）——+-=“：’；、。，？》《{}]'

with open('toutiao_cat_data.txt', 'r', encoding='utf') as f:
    lines = f.readlines()
    for i in range(len(line