在处理列表的时候我们经常会遇到列表中嵌套列表的结构,如果我们要把所有元素放入一个新列表,或者要计算所有元素的个数的话应该怎么做呢?
第一个例子
对于上图中的这样一组数据,如果我们要知道这个CSV文件中所有演员的数量(同一个人只能出现一次)应该怎么做呢?
在pandas中我们可以先取Actors这一列,但是取出来之后我们会发现这是一个列表中嵌套列表的结构,要想将所有元素提取出来我们可以使用两个for循环来解决这一问题。代码如下:
# encoding = utf-8
import pandas as pd
file_path = "d:/learning/pandas/IMDB-Movie-Data.csv"
df = pd.read_csv(file_path)
print(df.head(1))
# 读平均评分
print(df["Rating"].mean())
# 导演的人数(下面两个操作达到的效果是一样的)
print(len(set(df["Director"].tolist())))
print(len(df["Director"].unique()))
# 获取演员的人数
temp_list = df["Actors"].str.split(", ").tolist()
# 将列表套列表转为单列表
actors_list