重庆交通大学
信息学院
作业一
专业:计算机科学与技术
课程名称:大数据概论
班级:###########
学号:###########
姓名:###
我根据老师给我们的Sakila数据集中的payment、customer、rental、inventory四个数据表单通过vscode软件中python中相关绘图,数据分析的库来进行操作,老师的要求是:根据数据集(sakila),自行设计一种数据分析(或者数据挖掘的方法),发现:最具有购买潜力的顾客,并给他们发送感谢邮件。所以我运用了如下代码进行读取payment、customer、rental、inventory四张表来查看其特征信息。
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib as mpl
from mpl_toolkits.mplot3d import Axes3D
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['font.family']='sans-serif'
plt.rcParams['axes.unicode_minus']=False
payment = pd.read_csv('D:\吴杭俊\大数据概论\sakila_csv_version_with_fields_added\payment.csv')
\# payment.head()
print(payment.describe())
print(" ")
rental = pd.read_csv('D:/吴杭俊/大数据概论/sakila_csv_version_with_fields_added/rental.csv')
print(rental.describe())
print(" ")
inventory = pd.read_csv('D:\吴杭俊\大数据概论\sakila_csv_version_with_fields_added\inventory.csv')
print(inventory.describe())
print(" ")
customer = pd.read_csv('D:\吴杭俊\大数据概论\sakila_csv_version_with_fields_added\customer.csv')
print(customer.describe())
得到如下特征信息截图:
然后在对sales_by_film_category.csv中的数据进行读取得到如下截图:
film = pd.read_csv('D:/吴杭俊/大数据概论/sakila_csv_version_with_fields_added/sales_by_film_category.csv')
print(film.describe())
然后再对sales_by_film_category.csv中的数据进行条形统计分析得如下图:
根据所得条形图可得到Travel中的total_sales销售总量最高,以此推断最具购买潜力的顾客大多分布在喜欢Travel类film中
对上述综合,合并payment、rental、customer三个表中的customer_id,然后在对其分析画出散点图如下:
然后在将三个表中的数据分别用黄色(payment)、紫色(customer)和深绿色(rental)来表示得如图:
推断出最具购买潜力的顾客大多分布在黄色(payment)区域中的customer_id,所以我们分析出来,在payment中去从读取得出的customer_id进行感谢邮件的发送,这些人应该是在75%到max之间选择(因为在其之间的payment_id、staff_id、rental_id和amount相对其他区间较高)
如图说明: