数据分析
文章平均质量分 50
kingloneye
微信联系方式:kxswx001
展开
-
pandas案例二(统计电影分类情况)
统计电影分类情况import pandas as pdimport numpy as npfrom matplotlib import pyplot as pltdf = pd.read_csv("D:/test/youtube_video_data/IMDB-Movie-Data.csv")print(df.head())print(df.info())#分类print(df["Genre"])"""思路:重新构造一个全为0的数组,列名为全部展开的分类,行为原来数据的长度,如果原创 2020-08-06 10:55:30 · 822 阅读 · 0 评论 -
pandas之缺失数据的处理(五)
import pandas as pdimport numpy as npt1 = pd.DataFrame(np.arange(12).reshape(3,4),index=list("abc"),columns=list("WXYZ"))print(t1)t1.iloc[1:,:2]=np.nanprint(t1)判断当前数组有没有nan 方式一:为nan的返回True#判断当前数组有没有nan 方式一:为nan的返回Trueprint(pd.isnull(t1))判断当前原创 2020-08-06 10:48:58 · 131 阅读 · 0 评论 -
pandas案例(一)
案例:对于这一组电影数据,如果我们想runtime的分布情况,应该如何呈现数据?import pandas as pdfrom matplotlib import pyplot as plt#pandas读取外部数据df = pd.read_csv("D:/test/youtube_video_data/IMDB-Movie-Data.csv")print(df.head())print(df.info())#获取时间列数据runtime_data = df["Runtime (Mi原创 2020-08-06 10:39:41 · 687 阅读 · 0 评论 -
pandas之DataFrame 二维数组创建,行、列索引(三)
DataFrame对象既有行索引,又有列索引行索引:表明不同行,横向索引,叫index,0轴,axis=0列索引:表明不同列,纵向索引,叫columns,1轴,axis=1创建DataFrame 二维数组import pandas as pdimport numpy as np# 创建DataFrame 二维数组t1 = pd.DataFrame(np.arange(12).reshape(3,4))print(t1)创建DataFrame 二维数组,自定义行和列索引# 创建Data原创 2020-08-04 18:07:17 · 6330 阅读 · 0 评论 -
pandas之读取外部数据(二)
pandas 读取外部数据df = pd.read_csv("D:/test/youtube_video_data/dogNames2.csv")print(df.head())print(df.info())统计狗的名字次数最高的 排序df = df.sort_values(by="Count_AnimalName",ascending=False)print(df)统计狗的名字大于800的数据df = df[df["Count_AnimalName"]>800]pr原创 2020-08-04 17:39:33 · 149 阅读 · 0 评论 -
pandas之Series 一维数组(一)
pandas的常用数据类型1.Series 一维,带标签数组2.DataFrame 二维,Series容器创建Series 一维数组import pandas as pd# 创建Series 一维数组t1 = pd.Series([1,2,3,4,5,6])print(t1)0 11 22 33 44 55 6dtype: int64Series 一维数组的类型# Series 一维数组的类型print(type(t1)) //<原创 2020-08-04 17:35:33 · 1502 阅读 · 0 评论 -
numpy 简单练习(五)
练习:英国和美国各自youtube1000的数据结合之前的matplotlib绘制出各自的评论数量的直方图US_video_data_numbers.cs 数据分别是 点击 喜欢 不喜欢 评论us_path = "D:/test/youtube_video_data/US_video_data_numbers.csv"uk_path = "D:/test/youtube_video_data/GB_video_data_numbers.csv"t1 = np.loadtxt(us_path,deli原创 2020-07-28 16:22:29 · 289 阅读 · 0 评论 -
numpy之数组的拼接(水平、竖直)(四)
数组的拼接数组t1t1 = np.arange(12).reshape(2,6)print(t1)[[ 0 1 2 3 4 5] [ 6 7 8 9 10 11]]数组t2t2 = np.arange(12,24).reshape(2,6)print(t2)[[12 13 14 15 16 17] [18 19 20 21 22 23]]数组t1 竖直拼接 数组t2 vstackprint(np.vstack((t1,t2)))[[ 0 1 2 3原创 2020-07-28 16:09:13 · 1589 阅读 · 0 评论 -
numpy之索引、切片、三目运算(三)
import numpy as npt = np.arange(12).reshape(3,4)print(t)[[ 0 1 2 3] [ 4 5 6 7] [ 8 9 10 11]]取第二行print(t[1]) //[4 5 6 7]取第二列print(t[:,1]) //[1 5 9]取多行print(t[1:3])[[ 4 5 6 7] [ 8 9 10 11]]取多列print(t[:,1:4])[[ 1 2 3] [ 5原创 2020-07-28 15:51:05 · 213 阅读 · 0 评论 -
numpy之读取数据、转置(二)
轴# 轴 2表示0轴,5表示1轴t = np.arange(0,10).reshape((2,5))print(t)[[0 1 2 3 4] [5 6 7 8 9]]numpy 读取数据us_file_path = "D:/test/youtube_video_data/US_video_data_numbers.csv"t1 = np.loadtxt(us_file_path,delimiter=",",dtype="int")print(t1)[[4394029 32005原创 2020-07-28 15:43:53 · 294 阅读 · 0 评论 -
numpy之创建数组、查看数组形状、数组的计算(一)
[0.35531847 0.33282092 0.6839363 0.39138503 0.21946102 0.22605784 0.56158056 0.66337016 0.75136875 0.19762917]原创 2020-07-28 15:25:33 · 1666 阅读 · 0 评论 -
数据分析之matplotlib 直方图(七)
假设你获取了250部电影的时长(列表a中),希望统计出这些电影时长的分布状态(比如时长为100分钟到120分钟电影的数量,出现的频率)等信息,你应该如何呈现这些数据?a=[131, 98, 125, 131, 124, 139, 131, 117, 128, 108, 135, 138, 131, 102, 107, 114, 119, 128, 121, 142, 127, 130, 124, 101, 110, 116, 117, 110, 128, 128, 115, 99, 136, 126,原创 2020-07-14 10:04:46 · 280 阅读 · 0 评论 -
数据分析之matplotlib 条形图(六)
1、假设你获取到了2017年内地电影票房前20的电影(列表a)和电影票房数据(列表b),那么如何更加直观的展示该数据?a = [“战狼2”,“速度与激情8”,“功夫瑜伽”,“西游伏妖篇”,“变形金刚5:最后的骑士”,“摔跤吧!爸爸”,“加勒比海盗5:死无对证”,“金刚:骷髅岛”,“极限特工:终极回归”,“生化危机6:终章”,“乘风破浪”,“神偷奶爸3”,“智取威虎山”,“大闹天竺”,“金刚狼3:殊死一战”,“蜘蛛侠:英雄归来”,“悟空传”,“银河护卫队2”,“情圣”,“新木乃伊”,]b=[56.01,2原创 2020-07-13 18:12:18 · 376 阅读 · 0 评论 -
数据分析之matplotlib 散点图(五)
绘制散点图示例假设通过爬虫你获取到了北京2016年3,10月份每天白天的最高气温(分别位于列表a,b),那么此时如何寻找出气温和随时间(天)变化的某种规律?a = [11,17,16,11,12,11,12,6,6,7,8,9,12,15,14,17,18,21,16,17,20,14,15,15,15,19,21,22,22,22,23]b = [26,26,28,19,21,17,16,19,18,20,20,19,22,23,17,20,21,20,22,15,11,15,5,13,17,10,原创 2020-07-13 16:15:01 · 230 阅读 · 0 评论 -
数据分析之matplotlib 多条折线图(四)
练习2:假设大家在30岁的时候,根据自己的实际情况,统计出来了你和你同桌各自从11岁到30岁每年交的女(男)朋友的数量如列表a和b,请在一个图中绘制出该数据的折线图,以便比较自己和同桌20年间的差异,同时分析每年交女(男)朋友的数量走势a = [1,0,1,1,2,4,3,2,3,4,4,5,6,5,4,3,3,1,1,1]b = [1,0,3,1,2,2,3,3,2,1 ,2,1,1,1,1,1,1,1,1,1]要求:y轴表示个数x轴表示岁数,比如11岁,12岁等from matplotlib原创 2020-07-13 15:42:20 · 1047 阅读 · 0 评论 -
数据分析之matplotlib 折线图(三)
练习:假设大家在30岁的时候,根据自己的实际情况,统计出来了从11岁到30岁每年交的女(男)朋友的数量如列表a,请绘制出该数据的折线图,以便分析自己每年交女(男)朋友的数量走势a = [1,0,1,1,2,4,3,2,3,4,4,5,6,5,4,3,3,1,1,1]要求:y轴表示个数x轴表示岁数,比如11岁,12岁等from matplotlib import pyplot as pltimport random'''假设大家在30岁的时候,根据自己的实际情况,统计出来了从11岁到30岁原创 2020-07-13 15:39:47 · 260 阅读 · 0 评论 -
数据分析之matplotlib 折线图(二)
如果列表a表示10点到12点的每一分钟的气温,如何绘制折线图观察每分钟气温的变化情况?from matplotlib import pyplot as pltimport random''''设置图片大小figure图形图标的意思 ''''''如果列表a表示10点到12点的每一分钟的气温,如何绘制折线图观察每分钟气温的变化情况?https://blog.csdn.net/mudooo/article/details/80047074 Windows下,在Python中用matplotli原创 2020-07-13 15:38:09 · 154 阅读 · 0 评论 -
数据分析之matplotlib 折线图(一)
1、什么是matplotlibmatplotlib: 最流行的Python底层绘图库,主要做数据可视化图表,名字取材于MATLAB,模仿MATLAB构建2、为什么要学习matplotlib1.能将数据进行可视化,更直观的呈现2.使数据更加客观、更具说服力3、matplotlib该如何简单的使用假设一天中每隔两个小时(range(2,26,2))的气温(℃)分别是[15,13,14.5,17,20,25,26,26,27,22,18,15]from matplotlib import pyplo原创 2020-07-13 15:29:51 · 170 阅读 · 0 评论