读取的数据包含750条条目,分布在6个列中。以下是数据的列和它们的数据类型:
影视剧名称
(object):表示影视剧的名称。影视剧标签
(object):包含关于影视剧的标签信息,如类型、年份、主演等。弹幕数量
(object):表示影视剧的弹幕数量,需要注意的是这一列的数据类型为 object,可能是因为数值前有单位(例如“万条弹幕”)。热度
(int64):表示影视剧的热度,为一个整数数值。关键词描述
(object):包含关于影视剧的关键词描述。高清图片网址
(object):包含指向影视剧高清图片的网址。
一:数据预处理
数据概览如下:
首先读取数据,观察数据的大致情况:
import pandas as pd
# 读取上传的Excel文件
file_path = '影视剧信息.xlsx'
data_df = pd.read_excel(file_path)
data_df.info()
观测出“弹幕数量”有空值,所以可以去除含有空值的行:
# 删除含有空值的行
df1 = data_df.dropna(axis=0, how='any')
df1.info()
由于“弹幕数量”的单位存在不一致且“影视剧标签”含有多列,因此可以对这两列进行数据预处理。
由于大部分弹幕数量以万计,所以我们可以只提取含有“万条弹幕”的行,然后以“/”分隔符对影视剧标签进行分割:
#