![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
3 python三大库(已完结)
matplotlib
numpy
pandas
qq_44647559
这个作者很懒,什么都没留下…
展开
-
10 ---- pandas案例2之豆瓣电影直方图(pandas)
【问题1】豆瓣电影时长直方图 ---- 等宽组距,组距为整数(故直接传组距)[分析](1)由于“电影评分”和“电影时长”都有1000条数据,故没有缺失值。故不需要对缺失值进行处理。(2)电影时长 80 -- 150分钟绘制区间为80--90,90--100,100--110,...,140--150,每个区间电影个数的直方图(3)电影评分 0--10 分绘制区间为0--1,1--2,2--3,...,9--10,每个区间电影个数的直方图[提取数据](1)runtime_data = d原创 2021-05-11 20:03:33 · 295 阅读 · 0 评论 -
09 ---- pandas案例1之PM2.5(pandas)
【问题1】 时间不是一段连续的时间戳,而是分散的。怎么办?(1)若要对时间段降采样:首先要设置为索引,然后才能调用 data = df.resample('M').count()['title'](2)转化为时间类型有2种方式:方法1:时间戳 -----连续的时间段df['timeStamp'] = pd.to_datetime(df['timeStamp']) # (1)将时间戳 ------> DataFrame的时间类型df.set_原创 2021-05-11 20:02:05 · 76 阅读 · 0 评论 -
8 --- 时间序列案例(pandas)
【问题1】(1)统计出911数据中“不同月份”(总的)电话次数的变化情况 ---- 折线图(2)统计出911数据中“不同月份不同类型”的(分别的)电话次数的变化情况 ---- 折线图'timeStamp'---- 时间戳'cate' ---- 不同类型 # (1)统计出911数据中“不同月份”电话次数的变化情况 ---- 折线图import pandas as pdfrom matplotlib import pyp原创 2021-05-11 19:56:08 · 181 阅读 · 0 评论 -
7 --- 时间序列(pandas)
【问题1】生成一段时间范围(1)pd.date_range(start=None,end=None,periods=None,freq='D')注意:periods = 10,有10个 freq = 'D' 天 freq = 'M' 每月最后一天(MonthEnd) freq = 'BM' 每月最后一个工作日(BusinessMonthEnd) freq = 'MS' 每月第1天(MonthBegin) freq = 'H原创 2021-05-11 19:55:38 · 58 阅读 · 0 评论 -
6 --- 数据的合并和分组聚合之案例2(pandas)
【问题1】pandas时间序列01现在我们有2015到2017年25万条911的紧急电话的数据(1)请统计出这些数据中“不同类型的紧急情况的次数”# case1 ----- 前情提要import pandas as pdimport numpy as npdf = pd.read_csv('./code2/911.csv')print('\n【df.head()】')print(df.head()) # df.head() ------ 默认前5行print原创 2021-05-11 19:54:57 · 72 阅读 · 0 评论 -
5 --- 数据的合并和分组聚合之案例1(pandas)
【案例1】(1)使用matplotlib呈现出店铺总数排名前10的国家(2)使用matplotlib呈现出中国每个城市的店铺数量# (1)使用matplotlib呈现出店铺总数排名前10的国家'''(1) df.groupby(by='Country') 按照国家进行分组(2) sort_values:默认升序(ascending=True) ascend:上升(3) [:10] 切片:取前10行(4) df.index 索引 df.values 索引所对原创 2021-05-11 19:54:04 · 102 阅读 · 0 评论 -
4 ---- 数据的合并和分组聚合(pandas)
【问题1】字符串离散化的案例案例:对于这一组电影数据,如果我们希望统计电影分类(genre)的情况,应该如何处理数据?例如,喜剧片的电影个数,冒险片的电影个数,爱情片的电影个数......思路:(1)重新构造一个全为0的数组,列名为分类。(2)如果某一条数据中分类出现过,就让0变为1.(3)最后统计每个分类(即列表的列)的电影个数(即1的个数)注意:(1)新数组的行数和以前一样(2)新数组的列数是所有的genre(不重复)# case1 ---- 前情提要import p原创 2021-05-10 09:34:11 · 100 阅读 · 0 评论 -
3 ---- pandas统计方法(pandas)
【问题1】pandas的常用统计方法(1)评分的平均分rating_mean = df['Rating'].mean()(2)导演的人数【方法1】temp_list = df['Actors'].str.split(',').tolist()all_temp_list = [i for j in temp_list for i in j]nums = set(all_temp_list)len(nums)【方法2】temp_list = df['Director'].unique(原创 2021-05-10 09:33:36 · 99 阅读 · 0 评论 -
2 --- dataframe(pandas)
前情提要:【pandas的常用数据类型】(1)Series一维,带标签数组(2)DataFrame二维,Series容器【DataFrame对象既有行索引,又有列索引】(1)列索引,表明不同列,纵向索引,叫columns,1轴,axis=1(表现为行)(2)行索引,表明不同行,横向索引,叫inde,0轴,axis=0 (表现为列)【问题1】pandas之DataFrame的创建'''有2个问题:(1)DataFrame和Series有什么关系?* DataFrame的每一行原创 2021-05-10 09:33:05 · 49 阅读 · 0 评论 -
1 ---- series和读取外部数据(pandas)
【前情提要】为什么要学习pandasbecause(1)numpy能够帮助我们处理数据,能够结合matplotlib解决数据分析的问题,那么pandas学习的目的是什么呢?(2)numpy主要解决数值型数据。(3)而数据除了数值外,还有字符串,还有时间序列等.(4)比如:我们通过爬虫获取到了存储在数据库中的数据(5)比如:之前YouTube的例子中除了数值外还有国家的信息,视频的分类(tag)信息,标题信息等so(1)所以,numpy能够帮助我们处理数值,但是pandas除了处理数值之外(基原创 2021-05-10 09:32:24 · 52 阅读 · 0 评论 -
0 --- 前情提要(pandas)
【问题1】分组聚合-----非时间类型import pandas as pdfrom matplotlib import pyplot as pltdf = pd.read_csv('./books-Copy1.csv')# step1:去掉"年份"中的缺失值df1 = df[ pd.notnull(df['original_publication_year']) ]# step2:按照”年份“分组,再求评分的平均值'''注意:下面这3种方式是一样的。推荐第二种(1)应原创 2021-05-10 09:31:48 · 47 阅读 · 0 评论 -
5------youtube数据的练习(numpy)
【动手】(1)英国和美国各自YouTube的数据结合之前的matplotlib绘制出各自的评论数量的直方图 ---- 直方图注意:可以传列表,解决组距除不尽的情况(2)希望了解英国的YouTube中视频的评论数和喜欢数的关系,应该如何绘制该图 ---- 散点图注意:趋势是折线图,相关是散点图【问题1】英国和美国各自YouTube的数据结合之前的matplotlib绘制出各自的评论数量的直方图 ---- 直方图注意:可以传列表,解决组距除不尽的情况# 第一次绘图'''点击,原创 2021-05-10 09:25:18 · 114 阅读 · 0 评论 -
4------- numpy中的nan(numpy)
【问题1】判断非0元素的个数(判断为1元素的个数)'''判断非0元素的个数:np.count_nonzero(t3)'''import numpy as npt1 = np.arange(24).reshape(4,6)t2 = t1.astype('float')t2[3,3] = np.nant2[2,3] = np.nanprint(t2)t2[:,0] = 0 # 第0列的元素设为0print(t2) t3 = np.count_nonzero(t2)原创 2021-05-10 09:22:31 · 55 阅读 · 0 评论 -
3----------numpy中的常用方法(numpy)
【问题1】:现在我希望把之前案例中两个国家的数据方法一起来研究分析,那么应该怎么做?案例1-----数组的拼接 np.vstack((t1,t2))-----竖直拼接(vertically) np.hstack( (t1,t2) )------ 水平拼接(horizontally)import numpy as npt1 = np.arange(12).reshape(2,6)print(t1)t2 = np.array(range(12,2原创 2021-05-10 09:21:57 · 41 阅读 · 0 评论 -
2----------numpy读取本地数据和索引(numpy)
【numpy读取数据】np.loadtxt(fname,dtype='float',delimiter=None,skiprows=0,usecols=None,unpack=False)注意:fname:文件,字符串或产生器可以是.gz或bz2压缩文件dtype:数据类型,可选,csv的字符串以什么数据类型读入数组中,默认 np.floatdelimiter:分隔字符串,默认是任何空格,改为“逗号”skiprows:跳过前x行,一般跳过第一行表头usecols:读取指定的列,索引,元组类型原创 2021-05-10 09:21:24 · 102 阅读 · 0 评论 -
1---------numpy数组(numpy)
案例1------基础回顾注意:(1)下标---------------字符串,列表,元组 无下标-------------字典,集合(2)可变类型-----------列表,字典,集合(元组只能根据下标进行查找,不能进行修改) 不可变类型---------字符串my_list = [1,'lisa',True]print(my_list[1]) # lisa------列表my_tuple = ('aa','bb','cc','dd')pri原创 2021-05-10 09:20:54 · 69 阅读 · 0 评论 -
4---直方图(matplotlib)
案例1 ----- 直方图(matplotlib)'''题目:假设你获取了250部电影的时长(列表a中),希望统计出这些电影时长的分布状态(比如时长为100分钟到120分钟电影的数量,出现的频率)等信息, 你应该如何呈现这些数据? a=[131, 98, 125, 131, 124, 139, 131, 117, 128, 108, 135, 138, 131, 102, 107, 114, 119, 128, 121, 142, 127, 130, 124, 101, 11原创 2021-05-09 22:07:38 · 76 阅读 · 0 评论 -
3---条形图(matplotlib)
案例1-----竖着的条形图(matplotlib)'''竖着的条形图:plt.bar(x,y,width=0.2)假如你获取到了2017年内地电影票房前20的电影(列表a)和电影票房数据(列表b),那么如何更加直观的展示该数据?a = ["战狼2","速度与激情8","功夫瑜伽","西游伏妖篇","变形金刚5:最后的骑士","摔跤吧!爸爸","加勒比海盗5:死无对证","金刚:骷髅岛","极限特工:终极回归","生化危机6:终章","乘风破浪","神偷奶爸3","智取威虎山","大闹天竺","金原创 2021-05-09 22:05:30 · 77 阅读 · 0 评论 -
2---散点图(matplotlib)
'''散点图:plt.scatter(x,y)题目:假设通过爬虫你获取到了北京2016年3,10月份每天白天的最高气温(分别位于列表a,b),那么此时如何寻找出气温和随时间(天)变化的某种规律?a = [11,17,16,11,12,11,12,6,6,7,8,9,12,15,14,17,18,21,16,17,20,14,15,15,15,19,21,22,22,22,23]b = [26,26,28,19,21,17,16,19,18,20,20,19,22,23,17,20,21,20,22,原创 2021-05-09 22:03:24 · 70 阅读 · 0 评论 -
1---折线图(matplotlib)
'''折线图:plt.plot(x,y)题目:你和同桌从11岁到30岁每年交的女(男)朋友的数量如列表a和b,请在一个图中绘制出该数据的折线图,以便比较自己和同桌20年间的差异,同时分析每年交女(男)朋友的数量趋势a = [1, 0, 1, 1, 2, 4, 3, 2, 3, 4, 4, 5, 6, 5, 4, 3, 3, 1, 1, 1]b = [1, 0, 3, 1, 2, 2, 3, 3, 2, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1]要求:Y轴表示个数X轴表示岁原创 2021-05-09 21:52:48 · 85 阅读 · 0 评论