IPhone16评论自然语言处理

最近看到了一个自然语言处理的项目,发现自己也没怎么写过这方面的文章,所以上周写了一篇,上周忘记发了,这周才发。

 这是两个数据集的概况

最近看到了一个IPhone评论数据的自然语言处理的项目,就想到了在GitHub上的一个开源的处理中文文本的模型HanLP,这是他的地址https://github.com/hankcs/HanLP
大家可以去学习一下,Jieba是基于传统的词典匹配和HMM,而HanLP2.x版本是基于深度学习,对于分词的处理可能更加精确

一.准备工作

!pip install snownlp -i https://pypi.tuna.tsinghua.edu.cn/simple/
!pip install wordcloud -i https://pypi.tuna.tsinghua.edu.cn/simple/
!pip install hanlp[full] -i https://pypi.tuna.tsinghua.edu.cn/simple/

先下载需要用到的分词,情感分析,词云图的第三方库

import hanlp
import pandas as pd
import numpy as np
from snownlp import SnowNLP
from wordcloud import WordCloud

 导入包

df1 = pd.read_excel("D:/每周挑战/B站视频-何同学_241020_1729431535.xlsx")
df2 = pd.read_excel("D:/每周挑战/B站视频-影视飓风_241020_1729431473.xlsx")

pd.set_option("display.max_columns",1000)
pd.set_option("display.max_rows",1000)

读取数据,并解除行和列的限制

df1.info()
///
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6310 entries, 0 to 6309
Data columns (total 14 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   oid     6310 non-null   int64  
 1   rpid    6310 non-null   int64  
 2   rrpid   1290 non-null   float64
 3   评论层级    6310 non-null   object 
 4   用户昵称    6310 non-null   object 
 5   评论内容    6310 non-null   object 
 6   评论时间    6310 non-null   object 
 7   被回复用户   1290 non-null   object 
 8   性别      6310 non-null   object 
 9   用户当前等级  6310 non-null   int64  
 10  点赞数     6310 non-null   int64  
 11  回复数     6310 non-null   int64  
 12  视频标题    6310 non-null   object 
 13  视频链接    6310 non-null   object 
dtypes: float64(1), int64(5), object(8)
memory usage: 690.3+ KB
///
df2.info()
///
<class 'pandas.core.frame.DataFrame'
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值