大数据分析

重庆交通大学

信息学院

作业一

专业:计算机科学与技术
课程名称:大数据概论
班级:###########
学号:###########
姓名:###

​ 我根据老师给我们的Sakila数据集中的payment、customer、rental、inventory四个数据表单通过vscode软件中python中相关绘图,数据分析的库来进行操作,老师的要求是:根据数据集(sakila),自行设计一种数据分析(或者数据挖掘的方法),发现:最具有购买潜力的顾客,并给他们发送感谢邮件。所以我运用了如下代码进行读取payment、customer、rental、inventory四张表来查看其特征信息。

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib as mpl
from mpl_toolkits.mplot3d import Axes3D
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['font.family']='sans-serif'
plt.rcParams['axes.unicode_minus']=False
payment = pd.read_csv('D:\吴杭俊\大数据概论\sakila_csv_version_with_fields_added\payment.csv')
\# payment.head()
print(payment.describe())
print(" ")
rental = pd.read_csv('D:/吴杭俊/大数据概论/sakila_csv_version_with_fields_added/rental.csv')
print(rental.describe())
print(" ")
inventory = pd.read_csv('D:\吴杭俊\大数据概论\sakila_csv_version_with_fields_added\inventory.csv')
print(inventory.describe())
print(" ")
customer = pd.read_csv('D:\吴杭俊\大数据概论\sakila_csv_version_with_fields_added\customer.csv')
print(customer.describe())

得到如下特征信息截图:

在这里插入图片描述

然后在对sales_by_film_category.csv中的数据进行读取得到如下截图:

film = pd.read_csv('D:/吴杭俊/大数据概论/sakila_csv_version_with_fields_added/sales_by_film_category.csv')
print(film.describe())

在这里插入图片描述

然后再对sales_by_film_category.csv中的数据进行条形统计分析得如下图:

在这里插入图片描述

根据所得条形图可得到Travel中的total_sales销售总量最高,以此推断最具购买潜力的顾客大多分布在喜欢Travel类film中

对上述综合,合并payment、rental、customer三个表中的customer_id,然后在对其分析画出散点图如下:

在这里插入图片描述

然后在将三个表中的数据分别用黄色(payment)、紫色(customer)和深绿色(rental)来表示得如图:

在这里插入图片描述

推断出最具购买潜力的顾客大多分布在黄色(payment)区域中的customer_id,所以我们分析出来,在payment中去从读取得出的customer_id进行感谢邮件的发送,这些人应该是在75%到max之间选择(因为在其之间的payment_id、staff_id、rental_id和amount相对其他区间较高)

如图说明:

在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值