Pandas文本数据分析

最新推荐文章于 2023-01-09 22:58:36 发布

而又何羡乎

最新推荐文章于 2023-01-09 22:58:36 发布

阅读量594

点赞数 1

分类专栏： Python基础学习文章标签： python 数据分析

本文链接：https://blog.csdn.net/qq_44285092/article/details/105646974

版权

Python基础学习专栏收录该内容

15 篇文章 0 订阅

订阅专栏

import pandas as pd
df = pd.read_csv('superstarinfo.txt')
df.head()

	序号	中文名	性别	国籍	民族	星座	血型	身高	体重	出生地	出生日期	毕业院校	代表作品
0	1	赵丽颖	女	中国	汉族	天秤座	A型	165cm	44.6kg	河北省廊坊市	1987年10月16日	NaN	花千骨、楚乔传、陆贞传奇、杉杉来了、知否知否应是绿肥红瘦、乘风破浪、西游记女儿国
1	2	迪丽热巴	女	中国	维吾尔族	双子座	NaN	168cm	NaN	新疆维吾尔自治区乌鲁木齐市	1992年6月3日	上海戏剧学院	阿娜尔罕、克拉恋人、漂亮的李慧珍、三生三世十里桃花、烈火如歌、一千零一夜、傲娇与偏见
2	3	周杰伦	男	中国	汉族	摩羯座	O型	175cm	NaN	台湾省新北市	1979年1月18日	淡江中学	星晴、龙卷风、简单爱、双截棍、晴天、以父之名、东风破、七里香、青花瓷、彩虹、稻香、告白气球
3	4	杨幂	女	中国	汉族	处女座	B型	166.5cm	NaN	北京市	1986年9月12日	北京电影学院	宫锁心玉、三生三世十里桃花、小时代、我是证人、逆时营救、仙剑奇侠传三、亲爱的翻译官、王昭君
4	5	胡歌	男	中国	汉族	处女座	O型	185cm	70kg	上海市徐汇区	1982年9月20日（农历八月初四）	上海戏剧学院	仙剑奇侠传、天外飞仙、仙剑奇侠传三、神话、伪装者、琅琊榜、大好时光、猎场

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 13 columns):
序号      100 non-null int64
中文名     100 non-null object
性别      100 non-null object
国籍      100 non-null object
民族      95 non-null object
星座      91 non-null object
血型      80 non-null object
身高      95 non-null object
体重      69 non-null object
出生地     99 non-null object
出生日期    100 non-null object
毕业院校    88 non-null object
代表作品    93 non-null object
dtypes: int64(1), object(12)
memory usage: 10.2+ KB

df = df.set_index('序号')

(1)男女明星数量各是多少？

a = len(df[df['性别'] == '女'])
b = len(df[df['性别'] == '男'])
c = len(df[df['性别'] != '男']) - len(df[df['性别'] == '女'])
print('男明星的人数为：%s'%b)
print('女明星的人数为：%s'%a)
print('性别不详的人数为：%s'%c)

男明星的人数为：59
女明星的人数为：40
性别不详的人数为：1

(2)明星的年龄分布情况？

# str.extract(r'(\d+)', expand=True) python正则表达式
df['age'] = df['出生日期'].str.extract(r'(\d+)', expand=True)
df['age'] = 2020 - df['age'].astype('int')
df.head()

	中文名	性别	国籍	民族	星座	血型	身高	体重	出生地	出生日期	毕业院校	代表作品	age
序号
1	赵丽颖	女	中国	汉族	天秤座	A型	165cm	44.6kg	河北省廊坊市	1987年10月16日	NaN	花千骨、楚乔传、陆贞传奇、杉杉来了、知否知否应是绿肥红瘦、乘风破浪、西游记女儿国	33
2	迪丽热巴	女	中国	维吾尔族	双子座	NaN	168cm	NaN	新疆维吾尔自治区乌鲁木齐市	1992年6月3日	上海戏剧学院	阿娜尔罕、克拉恋人、漂亮的李慧珍、三生三世十里桃花、烈火如歌、一千零一夜、傲娇与偏见	28
3	周杰伦	男	中国	汉族	摩羯座	O型	175cm	NaN	台湾省新北市	1979年1月18日	淡江中学	星晴、龙卷风、简单爱、双截棍、晴天、以父之名、东风破、七里香、青花瓷、彩虹、稻香、告白气球	41
4	杨幂	女	中国	汉族	处女座	B型	166.5cm	NaN	北京市	1986年9月12日	北京电影学院	宫锁心玉、三生三世十里桃花、小时代、我是证人、逆时营救、仙剑奇侠传三、亲爱的翻译官、王昭君	34
5	胡歌	男	中国	汉族	处女座	O型	185cm	70kg	上海市徐汇区	1982年9月20日（农历八月初四）	上海戏剧学院	仙剑奇侠传、天外飞仙、仙剑奇侠传三、神话、伪装者、琅琊榜、大好时光、猎场	38

df['age'].describe()

count    100.00000
mean      38.69000
std        9.93585
min       20.00000
25%       32.00000
50%       38.00000
75%       44.25000
max       66.00000
Name: age, dtype: float64

import matplotlib.pyplot as plt #导入图像库
plt.rcParams['font.sans-serif'] = ['SimHei'] #用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False #用来正常显示负号

plt.figure(figsize = (15,10)) #创建图像区域，指定比例
df['age'].plot(kind='box')

在这里插入图片描述

(3)什么星座的明星最受欢迎？

def XZ(name):
    num = len(df[df['星座'] == name])
    return num
name = ['白羊座','金牛座','双子座','巨蟹座','狮子座','处女座','天秤座','天蝎座','射手座','摩羯座','水瓶座','双鱼座']
dic = {}
sum = 0
for i in name:
    num = XZ(i)
    #print('{}的明星有{}位'.format(i,num))
    sum = sum + num
    dic[i] = num
#print('未知星座的明星有{}位',len(df)-sum)
dic['other'] = len(df) - sum
print(dic)
print('最受欢迎的星座是:{}，共有{}位明星'.format(max(dic, key=dic.get),dic[max(dic, key=dic.get)]))

{'白羊座': 9, '金牛座': 5, '双子座': 3, '巨蟹座': 5, '狮子座': 6, '处女座': 13, '天秤座': 17, '天蝎座': 4, '射手座': 7, '摩羯座': 7, '水瓶座': 6, '双鱼座': 9, 'other': 9}
最受欢迎的星座是:天秤座，共有17位明星

(4)能够查询任意一个明星与其他明星的合作情况？

df.head()

	中文名	性别	国籍	民族	星座	血型	身高	体重	出生地	出生日期	毕业院校	代表作品	age
序号
1	赵丽颖	女	中国	汉族	天秤座	A型	165cm	44.6kg	河北省廊坊市	1987年10月16日	NaN	花千骨、楚乔传、陆贞传奇、杉杉来了、知否知否应是绿肥红瘦、乘风破浪、西游记女儿国	33
2	迪丽热巴	女	中国	维吾尔族	双子座	NaN	168cm	NaN	新疆维吾尔自治区乌鲁木齐市	1992年6月3日	上海戏剧学院	阿娜尔罕、克拉恋人、漂亮的李慧珍、三生三世十里桃花、烈火如歌、一千零一夜、傲娇与偏见	28
3	周杰伦	男	中国	汉族	摩羯座	O型	175cm	NaN	台湾省新北市	1979年1月18日	淡江中学	星晴、龙卷风、简单爱、双截棍、晴天、以父之名、东风破、七里香、青花瓷、彩虹、稻香、告白气球	41
4	杨幂	女	中国	汉族	处女座	B型	166.5cm	NaN	北京市	1986年9月12日	北京电影学院	宫锁心玉、三生三世十里桃花、小时代、我是证人、逆时营救、仙剑奇侠传三、亲爱的翻译官、王昭君	34
5	胡歌	男	中国	汉族	处女座	O型	185cm	70kg	上海市徐汇区	1982年9月20日（农历八月初四）	上海戏剧学院	仙剑奇侠传、天外飞仙、仙剑奇侠传三、神话、伪装者、琅琊榜、大好时光、猎场	38

def Cooperation(name):
    # 获取索引位置,变为二维数组，变为list，再提取数据
    num = df[df['中文名'] == name].index.values.tolist()[0]
    # 将所有人的作品变为list
    works = df['代表作品'].values
    works = works.astype('str').tolist()
    # 存储有合作关系的人的姓名
    coo_dic = {}
    # 判断是否为空值
    if works[num-1] == 'nan':
        print('%s没有与其它明星合作过'%name)
    else:
        # 提取当前人的作品，并以'、'分割为列表
        work = works[num-1].split('、')
        # print(work)
        # 构造遍历整个表格的循环
        for i in range(len(df)):
            # 提取其他人的作品，不包括自己，并以'、'分割为列表
            if i+1 != num and works[i] != 'nan':
                work_other = works[i].split('、')
                # 构造遍历当前人作品的循环
                for j in work:
                    # 判断当前人的作品是否在其他人的作品出现过
                    if j in work_other:
                        # 存储出现过的人的姓名
                        coo_dic[df['中文名'].values.astype('str').tolist()[i]] = j
    return print(coo_dic)

y_or_n = input('是否退出程序(y/n)')
while y_or_n != 'y':
    name = input('请输入需要查询合作信息明星的姓名：')
    if name in df['中文名'].values.astype('str').tolist():
        Cooperation(name)
    else:
        print('没有该明星的相关信息，输入错误')
    y_or_n = input('是否退出程序(y/n)')

是否退出程序(y/n)n
请输入需要查询合作信息明星的姓名：杨幂
{'迪丽热巴': '三生三世十里桃花', '胡歌': '仙剑奇侠传三', '鹿晗': '我是证人', '唐嫣': '仙剑奇侠传三', '刘诗诗': '仙剑奇侠传三', '黄轩': '亲爱的翻译官', '赵又廷': '三生三世十里桃花', '霍建华': '仙剑奇侠传三'}
是否退出程序(y/n)n
请输入需要查询合作信息明星的姓名：胡歌
{'杨幂': '仙剑奇侠传三', '刘涛': '琅琊榜', '刘亦菲': '仙剑奇侠传', '吴磊': '琅琊榜', '成龙': '神话', '唐嫣': '仙剑奇侠传三', '靳东': '伪装者', '刘诗诗': '仙剑奇侠传三', '王凯': '琅琊榜', '霍建华': '仙剑奇侠传三'}
是否退出程序(y/n)y

而又何羡乎

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
Pandas文本数据分析

import pandas as pddf = pd.read_csv('superstarinfo.txt')df.head() 序号中文名性别国籍民族星座血型身高体重出生地出生日期毕业院校...
复制链接

扫一扫