上市公司新闻情感分析在线实验闯关

该博客通过三关任务介绍了如何进行新闻情感分析。第一关是文本数据预处理,使用jieba分词;第二关去除停用词和数值;第三关构建支持向量机模型进行情感分类预测。
摘要由CSDN通过智能技术生成

第1关:文本数据预处理—-分词

任务描述
本关任务:读取新闻训练数据集和新闻测试数据文本数据,分别对两个数据集的标题内容进行分词处理, 并且对新闻训练数据集的标题构造情感分类标签,作为因变量。

相关知识
为了完成本关任务,你需要掌握:1.对标题情感进行数值化处理; 2.文档分词处理。

文档分词处理
分词顾名思义就是将一句话或一段话划分成一个个独立的词,目前有大量用于分词的工具,如jiaba、nltk、thulac和pynlpir等,对于中文来说jieba分词效果是比较好的,本文使用Python中的jiaba库对样本数据进行分词处理,利用.cut()函数实现。一般情况,采用默认的jieba.cut(s)精确模式即可。

def return_values():
    import jieba#引入结巴分词
    import pandas as pd
    
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Ssaty.

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值