最近看到了一个自然语言处理的项目,发现自己也没怎么写过这方面的文章,所以上周写了一篇,上周忘记发了,这周才发。
这是两个数据集的概况
最近看到了一个IPhone评论数据的自然语言处理的项目,就想到了在GitHub上的一个开源的处理中文文本的模型HanLP,这是他的地址https://github.com/hankcs/HanLP
大家可以去学习一下,Jieba是基于传统的词典匹配和HMM,而HanLP2.x版本是基于深度学习,对于分词的处理可能更加精确
一.准备工作
!pip install snownlp -i https://pypi.tuna.tsinghua.edu.cn/simple/
!pip install wordcloud -i https://pypi.tuna.tsinghua.edu.cn/simple/
!pip install hanlp[full] -i https://pypi.tuna.tsinghua.edu.cn/simple/
先下载需要用到的分词,情感分析,词云图的第三方库
import hanlp
import pandas as pd
import numpy as np
from snownlp import SnowNLP
from wordcloud import WordCloud
导入包
df1 = pd.read_excel("D:/每周挑战/B站视频-何同学_241020_1729431535.xlsx")
df2 = pd.read_excel("D:/每周挑战/B站视频-影视飓风_241020_1729431473.xlsx")
pd.set_option("display.max_columns",1000)
pd.set_option("display.max_rows",1000)
读取数据,并解除行和列的限制
df1.info()
///
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6310 entries, 0 to 6309
Data columns (total 14 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 oid 6310 non-null int64
1 rpid 6310 non-null int64
2 rrpid 1290 non-null float64
3 评论层级 6310 non-null object
4 用户昵称 6310 non-null object
5 评论内容 6310 non-null object
6 评论时间 6310 non-null object
7 被回复用户 1290 non-null object
8 性别 6310 non-null object
9 用户当前等级 6310 non-null int64
10 点赞数 6310 non-null int64
11 回复数 6310 non-null int64
12 视频标题 6310 non-null object
13 视频链接 6310 non-null object
dtypes: float64(1), int64(5), object(8)
memory usage: 690.3+ KB
///
df2.info()
///
<class 'pandas.core.frame.DataFrame'