一、pandas统计电影分类情况
## 重新构造一个全为0的数组,列名为分类
## 如果某一条数据中分类出现过,就让0变为1
data_movies = r"C:\Users\dell\Desktop\Python学习\14100_HM数据科学库课件\day04\datasets_IMDB-Movie-Data.csv"
df = pd.read_csv(data_movies)
print(df["Genre"])
# 统计各电影类型的个数
# 统计分类的列表
temp_list = df["Genre"].str.split(",").tolist() # 一个列表形式:[[],[]]
genre_list = list(set([i for j in temp_list for i in j]))
# 构造全为0的数组
zeros_df = pd.DataFrame(np.zeros(shape=(df.shape[0], len(genre_list)), dtype=int), columns=genre_list)
# 给每个电影出现分类的位置赋值
for i in range(df.shape[0]):
zeros_df.loc[i, temp_list[i]] = 1
# 统计数量和,列项求和
genre_count = zeros_df.sum(axis=0)
print(genre_count)
二、join用法
如下所示
pd.concat的三种join方式
df1=pd.DataFrame(np.ones((3,4))*0,columns=['A','B','C','D'],index=[1,2,3])
df2=pd.DataFrame(np.ones((3,4))*1,columns=['B','C','D',