自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 NRC词典应用实例——英文文本情感分析

本文在基于NRC词典的情感分析(含多种离散情绪)——python基础上创作,原文章对中文文本进行结巴分词,然后与词典进行匹配。在作者实际使用过程中,由于需要使用到英文的原始数据,因此,将中文文本预处理部分和后续处理部分进行更改完善,以适应英文文本。情绪和情感词典 是由加拿大国家研究委员会(简称NRC)的专家创建,因此也称为NRC词典。该词典具有广泛的应用程序开发,可以在多种环境中使用,例如情绪分析,产品营销,消费者行为,甚至是政治活动分析。词典中包含了多种语言的词汇情感值,其中就包括英文和中文,本文将使

2022-03-05 11:25:42 4046

原创 文本数据的批量处理方法2

文本数据的批量处理在第一篇博客“Dataframe中的字符串处理”中有提到,简单回顾一下,需要先将Dataframe中一列文本提取出来,然后使用下标的方式访问每一个元素。今天在学习的时候学到了另一种方法,如下:假设我们要对一列文本数据做一个简单的情感分析,并把生成的数值作为新的一列添加在原本数据集之后。首先定义一个函数:def get_sentiments(text): s = SnowNLP(text) return s.sentiments然后:data["sentiment"

2020-12-15 16:31:31 396

原创 字符串类型转换

今天在处理数据的时候,像上一篇博客中写到的,我正是使用了.values的方式提取出了字符串内容,然后继续后续的操作,但是当我写进for函数中时,运行程序还是给我报了错。原始代码如下:title=data["字段1_文本"].values#去除无效数据特殊符号re_move=[",","。","?","!","\n","\xa0"," ","《","》",":","、","【","】"]title_words=[]for i in range(0,1000): for j in re_m

2020-12-14 18:58:27 431

原创 我的第一篇博客-Dataframe中的字符串处理

近几天需要处理数据,遇到了字符串处理的问题,字符串是最常见的一种数据格式,但是在应用的时候才发现自己的掌握不够熟练,因此写下博客以备日后之需。首先,需要注意我们学过的字符串处理方法都是针对一个“字符串”来进行的。这句话的意思是:a="hello word!"可以直接对a进行处理,但往往我们直接读入表格数据后数据的展现形式是这样的:这种时候需要先将想要处理的文本列拿出,再将这一列中的文本值拿出,才能一个一个进行处理。不能在列的基础上对字符串进行处理!!!...

2020-12-11 10:16:41 1535

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除