大数据最全Python大数据-电商产品评论情感数据分析

reviews = reviews[[‘content’, ‘content_type’]].drop_duplicates()

content = reviews[‘content’]

reviews

可以看到有17条重复数据已经被删除

通过人工观察数据发现,评论中夹杂着许多数字与字母,对于本案例的挖掘目标而言,这类数据本身并没有实质性帮助。另外,由于该评论文本数据主要是围绕京东商城中韶音 AfterShokz Aeropex AS800骨传导蓝牙耳机进行评价的,**其中“京东”“京东商城”“韶音”“耳机”“蓝牙耳机”等词出现的频数很大,但是对分析目标并没有什么作用,**因此可以在分词之前将这些词去除,对数据进行清洗

去除去除英文、数字等

由于评论中不重要词语

strinfo = re.compile(‘[0-9a-zA-Z]|京东|京东商城|韶音|耳机|蓝牙耳机|’)

content=result[‘评价内容’]

content = content.apply(lambda x: strinfo.sub(‘’, x))

content

字段已经去除

分词

  • 分词是文本信息处理的基础环节,是将一个单词序列切分成单个单词的过程。汉语的基本单位是字,由字可以组成词,由词可以组成句子,进而由一些句子组成段、节、章、篇。可见,如果需要处理一篇中文语料,从中正确地识别出词是一件非常基础且重要的工作。然而,中文以字为基本书写单位,词与词之间没有明显的区分标记。

  • 当使用基于词典的中文分词方法进行中文信息处理时,不得不考虑未登录词的处理。未登录词是指词典中没有登录过的人名、地名、机构名、译名及新词语等。当采用匹配的办法来切分词语时,由于词典中没有登录这些词,会引起自动切分词语的困难。常见的未登陆词有命名实体,如“张三”“北京”“联想集团”“酒井法子”等;专业术语,如“贝叶斯算法”“模态”“万维网”;新词语,如“卡拉 OK”“美刀”“啃老族”等。另外,中文分词还存在切分歧义问题,如“当结合成分子时”这个句子可以有以下切分方法:“当/结合/成分/子时”“当/结合/成/分子/时”“当/结/合成/分子/时”“当/结/合成分/子时”等。可以说,中文分词的关键问题为切分歧义的消解和未登录词的识别分词最常用的工作包是jieba分词包,jieba分词是Python写成的一个分词开源库,专门用于中文分词。

停用词

  • **停用词( Stop Words),词典译为“电脑检索中的虚字、非检索用字”。在SEO搜索引擎中,为节省存储空间和提高搜索效率,搜索引擎在索引页面或处理搜索请求时会自动忽略某些字或词,这些字或词即被称为停用词。**通常来讲,停用词大体可以分为两类,一种是使用过于广泛和频繁的词语,比如英文的i、is,中文的“我”“你”等等,另一种是出现频率很高,但是意义不大的词,这种单词一般包括语气助词、副词、介词、连词等等,自身本身并无意义,在经过分词后,评论由一个字符串的形式转换成了多个由文字或词语组成的字符串形式,用来判断评论中的词语是否是停用词。

分词

worker = lambda s: [(x.word, x.flag) for x in psg.cut(s)] # 自定义简单分词函数

seg_word = content.apply(worker)

将词语转为数据框形式,一列是词,一列是词语所在的句子ID,最后一列是词语在该句子的位置

n_word = seg_word.apply(lambda x: len(x)) # 每一评论中词的个数

n_content = [[x+1]*y for x,y in zip(list(seg_word.index), list(n_word))]

index_content = sum(n_content, []) # 将嵌套的列表展开,作为词所在评论的id

seg_word = sum(seg_word, [])

word = [x[0] for x in seg_word] # 词

nature = [x[1] for x in seg_word] # 词性

content_type = [[x]*y for x,y in zip(list(reviews[‘content_type’]), list(n_word))]

content_type = sum(content_type, []) # 评论类型

result = pd.DataFrame({“index_content”:index_content,

“word”:word,

“nature”:nature,

“content_type”:content_type})

删除标点符号

result = result[result[‘nature’] != ‘x’] # x表示标点符号

删除停用词

stop_path = open(“…/data/stoplist.txt”, ‘r’,encoding=‘UTF-8’)

stop = stop_path.readlines()

stop = [x.replace(‘\n’, ‘’) for x in stop]

word = list(set(word) - set(stop))

result = result[result[‘word’].isin(word)]

构造各词在对应评论的位置列

n_word = list(r

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值