机器学习-Day05

 数据的合并和分类聚合

import pandas as pd
from matplotlib import pyplot as plt
import numpy as np
file_path = "./IMDB-Movie-Data.csv"

df = pd.read_csv(file_path)
print(df["Genre"].head(3))
#统计分类的列表
temp_list = df["Genre"].str.split(",").tolist()  #[[],[],[]]

genre_list = list(set([i for j in temp_list for i in j]))

#构造全为0的数组
zeros_df = pd.DataFrame(np.zeros((df.shape[0],len(genre_list))),columns=genre_list)
# print(zeros_df)

#给每个电影出现分类的位置赋值1
for i in range(df.shape[0]):
    #zeros_df.loc[0,["Sci-fi","Mucical"]] = 1
    zeros_df.loc[i,temp_list[i]] = 1

# print(zeros_df.head(3))

#统计每个分类的电影的数量和
genre_count = zeros_df.sum(axis=0)
print(genre_count)

#排序
genre_count = genre_count.sort_values()
_x = genre_count.index
_y = genre_count.values
#画图
plt.figure(figsize=(20,8),dpi=80)
plt.bar(range(len(_x)),_y,width=0.4,color="orange")
plt.xticks(range(len(_x)),_x)
plt.show()

1 数据的合并

join

merge

import pandas as pd
import numpy as np

file_path = "./starbucks_store_worldwide.csv"
df = pd.read_csv(file_path)
print(df.head())
print(df.info())
grouped = df.groupby(by="Country")
print(grouped)

#DataFrameGroupBy
#可以进行遍历
for i,j in grouped:
    print(i)
    print("*"*100)
    print(j)
#调用聚合方法
country_count = grouped["Brand"].count()
print(country_count["US"])
print(country_count["CN"])

#统计中国每个省店铺数量
china_data = df[df["Country"] == "CN"]
grouped2 = china_data.groupby(by="State/Province").count()["Brand"]
print(grouped2)

import pandas as pd
import numpy as np

file_path = "./starbucks_store_worldwide.csv"
df = pd.read_csv(file_path)
print(df.head())
print(df.info())
grouped = df.groupby(by="Country")
print(grouped)

#DataFrameGroupBy
#可以进行遍历
for i,j in grouped:
    print(i)
    print("*"*100)
    print(j)
#调用聚合方法
country_count = grouped["Brand"].count()
print(country_count["US"])
print(country_count["CN"])

#统计中国每个省店铺数量
china_data = df[df["Country"] == "CN"]
grouped2 = china_data.groupby(by="State/Province").count()["Brand"]
print(grouped2)

#数据按照多个条件进行分组
grouped = df["Brand"].groupby(by=[df["Country"],df["State/Province"]]).count()

2数据的索引

 使用matplotlib呈现出店铺总数排名前10的国家


import pandas as pd
from matplotlib import pyplot as plt
from matplotlib import font_manager

my_font = font_manager.FontProperties(fname="C:\Windows\Fonts\MSYHL.ttc", size=20)

#设置显示的最大列、宽等参数,消掉打印不完全中间的省略号
pd.set_option('display.max_columns', 1000) #显示完整的列
pd.set_option('display.max_rows', None) #显示完整的行
pd.set_option('display.width', 1000) #显示最大的行宽
pd.set_option('display.max_colwidth', 1000) #显示最大的列宽

file_path = "./starbucks_store_worldwide.csv"
df = pd.read_csv(file_path)

#使用matplotlib呈现出店铺总数排名前10的国家
#准备数据
datal = df.groupby(by="Country").count()["Brand"].sort_values(ascending=False)[:10]

_x = datal.index
_y = datal.values

#画图
plt.figure(figsize=(20,8),dpi=80)
plt.bar(range(len(_x)),_y)
plt.xticks(range(len(_x)),_x,fontproperties = my_font)
plt.show()
使用matplotlib呈现中国的每个城市的店铺数量

import pandas as pd
from matplotlib import pyplot as plt
from matplotlib import font_manager

my_font = font_manager.FontProperties(fname="C:\Windows\Fonts\MSYHL.ttc", size=10)

#设置显示的最大列、宽等参数,消掉打印不完全中间的省略号
pd.set_option('display.max_columns', 1000) #显示完整的列
pd.set_option('display.max_rows', None) #显示完整的行
pd.set_option('display.width', 1000) #显示最大的行宽
pd.set_option('display.max_colwidth', 1000) #显示最大的列宽

file_path = "./starbucks_store_worldwide.csv"
df = pd.read_csv(file_path)

#使用matplotlib呈现中国的每个城市的店铺数量
df2 = df[df["Country"] == "CN"]
#准备数据
datal = df2.groupby(by="City").count()["Brand"].sort_values(ascending=False)[:50]

_x = datal.index
_y = datal.values

#画图
plt.figure(figsize=(20,8),dpi=80)
# plt.bar(range(len(_x)),_y,width=0.3,color="orange")
plt.barh(range(len(_x)),_y,height=0.3,color="orange")
plt.yticks(range(len(_x)),_x,fontproperties = my_font)
plt.show()
import pandas as pd
from matplotlib import pyplot as plt

#设置显示的最大列、宽等参数,消掉打印不完全中间的省略号
pd.set_option('display.max_columns', 1000) #显示完整的列
pd.set_option('display.max_rows', None) #显示完整的行
pd.set_option('display.width', 1000) #显示最大的行宽
pd.set_option('display.max_colwidth', 1000) #显示最大的列宽

file_path = "./books.csv"
df = pd.read_csv(file_path)
# print(df.head(2))
# print(df.info())
#去除“original_publication_year”中nan的行
data1 = df[pd.notnull(df["original_publication_year"])]

grouped = data1["average_rating"].groupby(by=data1["original_publication_year"]).mean()

# print(grouped)

_x = grouped.index
_y = grouped.values

#画图
plt.figure(figsize=(20,8),dpi=80)
plt.plot(range(len(_x)),_y)
plt.xticks(list(range(len(_x)))[::10], _x[::10].astype(int), rotation=45)
plt.show()

 3.总结

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值