Pandas 实战 Kagge 百万级影评数据集之数据清洗和特征工程

最新推荐文章于 2023-11-08 06:00:00 发布

zg1g

最新推荐文章于 2023-11-08 06:00:00 发布

阅读量1k

点赞数

本文链接：https://blog.csdn.net/daigualu/article/details/109335655

版权

该博客通过Pandas处理Kaggle的电影评论数据，涵盖数据导入、预览、空值处理和特征工程。介绍了数据清洗技巧，如空值填充，以及如何进行数据探索分析，包括使用describe和info方法。同时，讨论了电影类型的统计分析和特征工程，展示了如何利用正则表达式和pyecharts进行数据可视化。

摘要由CSDN通过智能技术生成

split 本项目基于 Kaggle 电影影评数据集，与大家一起实战，包括：

如何使用 Pandas 做数据清洗和特征工程；
如何进行数据探索性分析 (EDA)；

学会数据分析的基本思维、基本技能和工具。包括：使用数据分析常用工具 numpy 和 pandas，绘图工具 matplotlib 和 pyecharts.

本项目需要导入的包：

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from pyecharts.charts import Bar,Grid,Line,Pie
import pyecharts.options as opts
from pyecharts.globals import ThemeType

1 导入数据

数据来自 Kaggle，共包括如下三个文件：

movies.dat ，共有 34000+ 行记录
ratings.dat，共有 810000+ 行记录
users.dat，共有 60000+ 行记录

百度网盘的下载链接:

https://pan.baidu.com/s/1Na8RCfpnyFrm1aTtMgiDuQ 提取码: wvnx

首先，导入电影数据文件 movies.dat，它共包括 3 个字段：Movie ID, Movie Title, Genre，分别表示电影 ID、电影名称、题材（可能属于多个题材，中间用 | 分割），使用 pandas 导入此文件：

import pandas as pd
movies = pd.read_csv('../dataset/movietweetings/movies.dat', delimiter='::', 
engine='python', header=None, names = ['Movie ID', 'Movie Title', 'Genre'],encoding='utf-8')
movies.head()

导入后的数据，前 5 行显示如下：

其次，导入用户相关的数据文件 users.dat：

users = pd.read_csv('../dataset/movietweetings/users.dat', delimiter='::', 
engine='python', header=None, names = ['User ID', 'Twitter ID'], encoding='utf-8')
users.head()

它一共有 2 列，分别表示用户 ID, Twitter ID, 前 5 行数据显示结果：

同样方法导入 rating.data，关于评分记录：

ratings = pd.read_csv('../dataset/movietweetings/ratings.dat', delimiter='::', 
engine='python', header=None, names = ['User ID', 'Movie ID', 'Rating', 'Rating Timestamp'], encoding='utf-8')

ratings.head()

前 5 行结果显示如下，一共有 4 列。分别表示用户 ID, 电影 ID，电影得分，评分时间戳。