机器学习入门简单案例

爱敲代码的小崔

于 2024-07-31 11:27:06 发布

阅读量252

点赞数 5

分类专栏：人工智能文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/qq_56246012/article/details/140797402

版权

人工智能专栏收录该内容

6 篇文章 0 订阅

订阅专栏

机器学习入门简单案例

一、NBA球员数据分析
二、租房数据分析

一、NBA球员数据分析

1. 获取数据

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns

data = pd.read_csv('nba_2017_nba_players_with_salary.csv')
data.head()

在这里插入图片描述

# 查看数据基本统计信息
data.describe()

在这里插入图片描述

2. 效率值相关性分析

#获取部分数据
data_cor = data.loc[:, ['RPM', 'AGE', 'SALARY_MILLIONS', 'ORB', 'DRB', 'TRB','AST', 'STL', 'BLK', 'TOV', 'PF', 'POINTS', 'GP', 'MPG', 'ORPM', 'DRPM']]
data_cor.head()

在这里插入图片描述

# 调用corr(),输出一个相关系数矩阵,显示 DataFrame中每两列之间的相关系数。
corr = data_cor.corr()
corr

在这里插入图片描述

# 绘制热力图
plt.figure(figsize=(20,8))
sns.heatmap(corr,square=True,linewidths=0.1,annot=True, fmt=".2f")
plt.show()

在这里插入图片描述

3. 衍生变量的一些可视化实践

以年龄为例

def age_cut(df):
    if df['AGE'] <= 24:
        return "young"
    elif df.['AGE'] >=30:
        return "old"
    else:
        return "best"

#使用apply对年龄进行划分
#apply() 方法可以将一个函数应用到 DataFrame 的每一行或每一列
#data["age_cut"] = data.apply(lambda x:age_cut(x),axis=1)
data["age_cut"] = data.apply(age_cut,axis=1)
data.head()

在这里插入图片描述

# 基于年龄段对球员薪水和效率值进行分析
plt.figure(figsize=(20,8))
plt.title("RPM and Salary")

x1 = data.loc[data.age_cut == "old"].SALARY_MILLIONS
y1 = data.loc[data.age_cut == "old"].RPM
plt.plot(x1, y1, "^")

x2 = data.loc[data.age_cut == "best"].SALARY_MILLIONS
y2 = data.loc[data.age_cut == "best"].RPM
plt.plot(x2, y2, "^")

x3 = data.loc[data.age_cut == "young"].SALARY_MILLIONS
y3 = data.loc[data.age_cut == "young"].RPM
plt.plot(x3, y3, ".")

plt.show()

在这里插入图片描述

multi_data = data.loc[:, ['RPM','POINTS','TRB','AST','STL','BLK','age_cut']]
sns.pairplot(multi_data, hue="age_cut")

在这里插入图片描述

4. 球队数据分析

#球队薪资排行
data_team = data.groupby(by='TEAM').agg({"SALARY_MILLIONS" : np.mean})
data_team.sort_values(by="SALARY_MILLIONS",ascending=False).head()

在这里插入图片描述

#按照分球队分年龄段，上榜球员降序排列，如上榜球员相同，则按效率值降序排列
#agg()可以对 DataFrame 或 Series 的列应用一个或多个函数，返回一个聚合后的 DataFrame 或 Series。
data_rpm = data.groupby(by=['TEAM','age_cut']).agg({"SALARY_MILLIONS":np.mean,"RPM":np.mean, "PLAYER":np.size})
data_rpm.head(10)

在这里插入图片描述

data_rpm.sort_values(by=['PLAYER','RPM'],ascending=False)

在这里插入图片描述

5. 球队综合实力排行

#as_index: 默认为 True，这意味着分组键将成为结果的索引。如果设置为 False，则分组键将作为常规列出现在结果中。
data_rpm1 = data.groupby(by=['TEAM'], as_index=False).agg({'SALARY_MILLIONS':np.mean,'RPM':np.mean,
                                                           'PLAYER':np.size,'POINTS':np.mean,'eFG%':np.mean,
                                                           'MPG':np.mean,'AGE':np.mean})
data_rpm1.head(10)

在这里插入图片描述
利用箱线图和小提琴图进行数据分析

#isin() 用于检查 DataFrame 或 Series 中的元素是否包含在给定的值集合中。
data["TEAM"].isin(['GS', 'CLE', 'SA', 'LAC', 'OKC', 'UTAH', 'CHA', 'TOR', 'NO', 'BOS']).head(10)

在这里插入图片描述

plt.figure(figsize=(20,13))
#获取数据
data_team2 = data[data["TEAM"].isin(['GS', 'CLE', 'SA', 'LAC', 'OKC', 'UTAH', 'CHA', 'TOR', 'NO', 'BOS'])]

#绘制箱线图
plt.subplot(3,1,1)
sns.boxplot(x="TEAM", y="SALARY_MILLIONS", data = data_team2)

plt.subplot(3,1,2)
sns.boxplot(x="TEAM", y="AGE", data = data_team2)

plt.subplot(3,1,3)
sns.boxplot(x="TEAM", y="MPG", data = data_team2)

在这里插入图片描述

# 绘制小提琴图
plt.figure(figsize=(20, 10))

plt.subplot(3,1,1)
sns.violinplot(x="TEAM", y="3P%", data=data_team2)

plt.subplot(3,1,2)
sns.violinplot(x="TEAM", y="eFG%", data=data_team2)

plt.subplot(3,1,3)
sns.violinplot(x="TEAM", y="POINTS", data=data_team2)

在这里插入图片描述

二、租房数据分析

1. 读取数据

from matplotlib import pyplot as plt
import numpy as np
import pandas as pd

data = pd.read_csv('链家北京租房数据.csv')
print(data.shape)
data.head()

在这里插入图片描述

2. 数据预处理

重复值处理

#重复数据检测
#duplicated()返回一个布尔值的同形状 Series
data.duplicated()
#删除重复数据
data = data.drop_duplicates()
data.shape

在这里插入图片描述
空值处理

# 删除缺失数据
data = data.dropna()
data.shape

在这里插入图片描述

3. 数据转换类型

data["面积(㎡)"].values

在这里插入图片描述

将面积( $m^2$ )一列的数据转换为float类型

# 创建一个空数组
data_new = np.array([])
# 取出“⾯积”⼀列数据，将每个数据末尾的中⽂字符去除 fild_data.info()
data_area = data["面积(㎡)"].values
for i in data_area:
    data_new = np.append(data_new,np.array(i[:-2]))

# 通过astype()⽅法将str类型转换为float64类型
data_area = data_new.astype(np.float64)
# ⽤新的数据替换
data.loc[:,"面积(㎡)"] = data_area

data

在这里插入图片描述

将“房间"替换成"室、“卫"替换成"厅”

# 获取户型一列数据
housetype_data = data["户型"]
temp_list = np.array([])
# 通过replace()方法进行替换
for i in housetype_data:
    temp_list=np.append(temp_list,i.replace('房间','室'))
temp_list

在这里插入图片描述

data['户型'] = temp_list
data

在这里插入图片描述

4. 房源数量、位置分析

data['区域'].unique()

在这里插入图片描述

# 创建⼀个DataFrame对象
new_df = pd.DataFrame({"区域":data['区域'].unique(),"数量":[0]*13})
new_df

在这里插入图片描述

# 按"区域"列将data进⾏分组，并统计每个分组的数量
groupby_area = data.groupby('区域').count()
new_df['数量']=groupby_area.values
new_df

在这里插入图片描述

area_new = new_df.sort_values(['数量'],ascending=False)
area_new

在这里插入图片描述


area_x = area_new.loc[:,'区域']
area_y = area_new.loc[:,'数量']
# 绘制柱形图
plt.figure(figsize=(18,9))
plt.bar(area_x,area_y,width=0.7)

# 将y轴坐标延长到2500
plt.ylim(0,1800)

plt.title("北京地区各区域小区数量")
plt.xlabel("区域")
plt.ylabel("数量")

for x, y in enumerate(area_y):
    plt.text(x,y + 30,'%s' % y,ha='center')
plt.show()

在这里插入图片描述

5. 户型数量分析

#定义函数、用于计算各户型的数量
def all_house(arr):
    key = np.unique(arr)
    result = {}
    for i in key:
        #在 NumPy 中，你可以使用布尔数组（也就是包含 True 和 False 的数组）作为索引来选择数组中的元素。
        #得到一个布尔数组 mask，它的长度与 arr 相同。
        #在这个布尔数组中，如果 arr 中的相应元素等于 k，那么该位置上的值就是 True；否则，该位置上的值就是 False。
        mask = (i == arr)
        #当你接着执行 arr[mask] 时，你实际上是在用布尔数组 mask 来索引 arr。
        #在这种情况下，只有当 mask 中的值为 True 时，arr 中的相应元素才会被选中。
        arr_new = arr[mask]
        v = arr_new.size
        result[i] = v
    return result
# 获取户型数据
house_array = data['户型']
house_info = all_house(house_array)
house_info

在这里插入图片描述

# 使用字典推导式将户型数量大于50的元素筛选出来。使用items获取键值对视图
# items() 方法返回的对象是一个迭代器，你可以通过循环来遍历它，但不能直接通过索引访问。
house_type = dict((key,value) for key,value in house_info.items() if value > 50)
house_type

在这里插入图片描述

# 转换成DataFrame对象
# keys()、values()返回字典中所有值的视图
show_house = pd.DataFrame({'户型':list(house_type.keys()),'数量':[x for x in house_type.values()]})
show_house

在这里插入图片描述

house_y = show_house['户型']
house_x = show_house['数量']

plt.figure(figsize = (20,8))
plt.barh(house_y,house_x)

# 把x轴坐标延⻓到2500
plt.xlim(0,2500) 
plt.xlabel("数量")
plt.ylabel("户型种类")
plt.title("北京地区各户型房屋数量")

for x, y in enumerate(house_x):
    plt.text(y + 30, x , '%s' % y)
    
plt.show()

在这里插入图片描述

6. 平均租金分析

df_all = pd.DataFrame({'区域':data['区域'].unique(),'房租总金额':[0] * 13,'总面积(㎡)':[0] * 13})
df_all

在这里插入图片描述

#计算各区域的总价格和总面积
#sum_price = data.groupby('区域')['价格(元/月)'].sum()
sum_price = data['价格(元/月)'].groupby(data['区域']).sum()
sum_area = data['面积(㎡)'].groupby(data['区域']).sum()
df_all['房租总金额'] = sum_price.values
df_all['总面积(㎡)'] = sum_area.values
df_all

在这里插入图片描述

print(df_all.dtypes)

在这里插入图片描述
总面积是object类型，所以需要转换为数值类型才能够进行数学运算。

# 将 '总面积(㎡)' 列转换为数值类型
# errors='coerce'将无法转换的值替换为 NaN
df_all["总面积(㎡)"] = pd.to_numeric(df_all["总面积(㎡)"], errors='coerce')
# 计算各个区域每平方米的房租
df_all["每平米租金(元)"] = round(df_all["房租总金额"] / df_all["总面积(㎡)"], 2)
df_all

在这里插入图片描述

# 合并new_df与df_all
df_merge = pd.merge(new_df,df_all)
df_merge

在这里插入图片描述

y_house = df_merge['数量']
x = df_merge['区域']
y_price = df_merge['每平米租金(元)']

fig = plt.figure(figsize = (20,8))

ax1 = fig.add_subplot(111)
ax1.bar(x,y_house,label = '数量')
ax1.set_ylabel('数量')
ax1.legend(loc = 2)

#创建一个新的轴 (ax2)，它与现有的轴 (ax1) 共享同一个 x 轴，但拥有独立的 y 轴
ax2 = ax1.twinx()
ax2.plot(x,y_price,'or-',label = '价格') #'or-'显示那个⼩红圆点
ax2.set_ylabel('价格')
ax2.set_ylim([0, 200])
# for i,(_x,_y) in enumerate(zip(range(13),y_price)):
#     plt.text(_x,_y,y_price[i])
# for x,(_x,y) in enumerate(zip(x,y_price)):
#     plt.text(x,y,'%s' % y)
for x,y in enumerate(y_price):
    plt.text(x,y,'%s' % y)
ax2.legend(loc = 1)

plt.show()

在这里插入图片描述

7. 面积区间分析

area_max = data['面积(㎡)'].max()
area_min = data['面积(㎡)'].min()
print(area_max,area_min)

在这里插入图片描述

#cut()将连续的数值数据分割成离散的区间
area_divide = [1, 30, 50, 70, 90, 120, 140, 160, 1200]
area_cut = pd.cut(list(data['面积(㎡)']),area_divide)
area_cut

在这里插入图片描述

#describe显示各个区间出现的次数( counts表示)以及频率(freps表示)
area_cut_data = area_cut.describe()
area_cut_data

在这里插入图片描述

area_percentage = (area_cut_data['freqs'].values) * 100

labels = ['30平米以下', '30-50平米', '50-70平米', '70-90平米','90-120平米','120-140平米','140-160平米','160平米以上']
plt.figure(figsize = (20,8))
plt.pie(area_percentage,labels=labels,autopct='%.2f %%',radius=0.8)
plt.legend(loc=1)
plt.show()