第1关:文本数据预处理—-分词
任务描述
本关任务:读取新闻训练数据集和新闻测试数据文本数据,分别对两个数据集的标题内容进行分词处理, 并且对新闻训练数据集的标题构造情感分类标签,作为因变量。
相关知识
为了完成本关任务,你需要掌握:1.对标题情感进行数值化处理; 2.文档分词处理。
文档分词处理
分词顾名思义就是将一句话或一段话划分成一个个独立的词,目前有大量用于分词的工具,如jiaba、nltk、thulac和pynlpir等,对于中文来说jieba分词效果是比较好的,本文使用Python中的jiaba库对样本数据进行分词处理,利用.cut()函数实现。一般情况,采用默认的jieba.cut(s)精确模式即可。
def return_values():
import jieba#引入结巴分词
import pandas as pd