孙砚秋-CSDN博客

原创 02 ，seaborn 调色板：指定颜色，颜色数量，连续颜色，线性渐变

1 ，调色板：介绍颜色很重要color_palette()能传入任何Matplotlib所支持的颜色color_palette()不写参数则默认颜色set_palette()设置所有图的颜色2 ，10 个基本颜色：deep, muted, pastel, bright, dark, colorblind使用：if __name__ == '__main__': current_palette = sns.color_palette() sns.palplot(

2020-07-08 14:58:44 11896

原创 01 ，seaborn 基本设置：5种风格，外边框，图位置，子图风格，文字大小，线宽

1 ，画正弦曲线，2 条： plot代码：# 正弦曲线def sinplot(flip=1): x = np.linspace(1,10,100) plt.plot(x,np.sin(x)*flip) plt.plot(x+0.5,np.sin(x)*(flip+0.2))if __name__ == '__main__': sinplot(1)结果：2 ，背景风格，5 种：常用 whitegrid5 种风格：darkgrid,

2020-07-07 19:36:38 8651

原创 13 ，np 常用函数：范围内取 n 个值，正态分布图，多元正态分布图

1 ，范围内取 n 个值：0-10 范围，取 6 个值：if __name__ == '__main__': x = np.linspace(0,10,6) print(x)结果：[ 0. 2. 4. 6. 8. 10.]

2020-07-07 12:17:18 654

原创 10 ，盒图( 统计 ) boxplot ：单盒，多盒

1 ，盒图，意义：中位数将数据排序：从小到大排序取到 3 个值： 1/4 处，2/4 处，3/4 处1/2 处：实际上就是中位数中位数：1 ，不是：数据最大值的一半2 ，而是：排名中间的那个位置的数据3 ，本质：是排名，不是数据2 ，盒图，单盒： boxplot目的：泰坦尼克号，年龄统计代码：if __name__ == '__main__': # 查看所有参数： # print(plt.rcParams.keys())

2020-07-06 22:10:00 1413

原创 04 ，plt 设置：x-y 范围，坐标点，外边框，plt 与 ax 的区别，推荐 ax ：

1 ，x-y 范围：代码：if __name__ == '__main__': # 查看所有参数： # print(plt.rcParams.keys()) # 通用设置 plt : 中文，正负号，宽度，颜色，样式 plt.rcParams['font.sans-serif'] = ['SimHei'] plt.rcParams['axes.unicode_minus'] = False plt.rcParams['lines.linewidth

2020-07-06 20:53:49 1870

原创 09 ，柱状图 (统计) hist ：范围，分几份

1 ，目的：将一堆数字分组每个区间有多少个2 ，柱状图：plt.hist(data,range=(0,80),bins=16)目的：泰坦尼克号年龄统计代码：if __name__ == '__main__': # 查看所有参数： # print(plt.rcParams.keys()) # 通用设置 plt : 中文，正负号，宽度，颜色，样式 plt.rcParams['font.sans-serif'] = ['SimHei'] pl

2020-07-06 20:47:44 1134

原创 08 ，散点图( x-y ) scatter ：

1 ，散点图：代码：if __name__ == '__main__': # 查看所有参数： # print(plt.rcParams.keys()) # 通用设置 plt : 中文，正负号，宽度，颜色，样式 plt.rcParams['font.sans-serif'] = ['SimHei'] plt.rcParams['axes.unicode_minus'] = False plt.rcParams['lines.linewidth']

2020-07-06 20:26:45 296

原创 07 ，柱形图( x-y ) bar ：plt 形式，ax 形式，横着的柱形图

1 ，柱形图，plt ： plt.bar(x,y,0.5)代码：if __name__ == '__main__': # 查看所有参数： # print(plt.rcParams.keys()) # 通用设置 plt : 中文，正负号，宽度，颜色，样式 plt.rcParams['font.sans-serif'] = ['SimHei'] plt.rcParams['axes.unicode_minus'] = False plt.rcParam

2020-07-06 19:54:27 651

原创 06 ，折线图( x-y ) plot，一图多线：一个 plt 画多次，小窗位置

1 ，一图多线：折线图代码：if __name__ == '__main__': # 查看所有参数： # print(plt.rcParams.keys()) # 通用设置 plt : 中文，正负号，宽度，颜色，样式 plt.rcParams['font.sans-serif'] = ['SimHei'] plt.rcParams['axes.unicode_minus'] = False plt.rcParams['lines.linewid

2020-07-06 18:01:40 1847

原创 05 ，子图：多个 ax 进行画图，fig.add_subplot

1 ，画子图： fig.add_subplot(1,3,1)代码：if __name__ == '__main__': # 查看所有参数： # print(plt.rcParams.keys()) # 通用设置 plt : 中文，正负号，宽度，颜色，样式 plt.rcParams['font.sans-serif'] = ['SimHei'] plt.rcParams['axes.unicode_minus'] = False plt.rcPar

2020-07-06 15:39:50 4669

原创 03 ，plt 设置 rcParams ：中文，正负号，线宽，线色，线条样式，常规例子，所有参数

1 ，所有配置：https://matplotlib.org/tutorials/introductory/customizing.html#customizing-with-matplotlibrc-files2 ，查看所有的 key ：rcParams.keys()3 ，中文支持：plt.rcParams['font.sans-serif'] = ['SimHei']4 ，正负号：plt.rcParams['axes.unicode_minus'] = False5 ，线条宽

2020-07-06 00:16:28 2813 1

原创 02 ，plt 折线图(x-y)，基础设置：文字角度，坐标名，标题名，支持中文，显示不全

1 ，失业率数据：代码：DATE,VALUE1948-01-01,3.41948-02-01,3.81948-03-01,4.02 ，坐标：代码：if __name__ == '__main__': plt.plot() plt.show()结果：3 ，x-y 折线图：plt.plot(x,y)代码：if __name__ == '__main__': # 读取数据 data = pd.read_csv("UNRAT

2020-07-05 16:54:28 2044

原创 14 ，pd 常用函数：日期，

1 ，日期函数：pd.to_datetime(data[“DATE”])代码：if __name__ == '__main__': # 读取数据 data = pd.read_csv("UNRATE.csv") print(data.dtypes) data["DATE"] = pd.to_datetime(data["DATE"]) print(data.dtypes)========================================D

2020-07-05 15:48:18 1357

原创 01 ，matplotlib 简介： plt 是什么，版本号，学习网站

1 ，matplotlib 是什么： 2d 绘图plt 是什么： python 的 2d 绘图库2 ，查看版本号：代码：if __name__ == '__main__': res = plt.__version__ print(res)========================3.0.33 ，中文学习网站：网址：https://www.matplotlib.org.cn/...

2020-07-05 15:28:44 427

原创 13 ，综合案例，泰坦尼克分析报告：先列转换，再分组聚合

1 ，船舱等级，性别，是否成年，对于幸存率的影响代码：if __name__ == '__main__': # 读文件 csv ： data = pd.read_csv("titanic_train.csv") # 我们需要的数据： cols = ["PassengerId","Pclass","Fare","Survived","Sex","Age"] data = data[cols] # 空值处理：全部去掉,删除行,还剩下的数据 (714

2020-07-05 11:10:05 262

原创 12 ，df 高级：自定义函数，聚合函数( pivot_table )，转换函数 ( apply )

1 ，未成年人数：data[data[“Age”] >= 18][“Age”]目的：求未成年人数 ( 113 )实验：先测试真实值是多少if __name__ == '__main__': # 读文件 csv ： data = pd.read_csv("titanic_train.csv") # 我们需要的数据： cols = ["PassengerId","Pclass","Fare","Survived","Sex","Age"] da

2020-07-05 02:11:29 1830

原创 17 ，python 闭包：小范围的全局变量

1 ，例子：代码：def closure(): a=0 def jia(): nonlocal a a=a+1 def jian(): nonlocal a a=a-1 def show(): print(a) return jia,jian,showif __name__ == '__main__': jia,jian,show=closure() jia

2020-07-05 01:37:51 177

原创 11 ，pd 高级：空值补 0，去重，聚合函数，groupby ，pivot_table

1 ，空值，全部干掉：data = data.dropna(axis=0)代码if __name__ == '__main__': # 读文件 csv ： data = pd.read_csv("titanic_train.csv") # 我们需要的数据： cols = ["PassengerId","Pclass","Fare","Survived","Sex","Age"] data = data[cols] # 空值处理：全部去掉,删除行

2020-07-05 00:39:08 713

原创 10 ，df 操作：排序，升序，降序 (data.sort_values)

1 ，排序： data.sort_values(“Age”,inplace=True)目的：用年龄排序代码：if __name__ == '__main__': # 读文件 csv data = pd.read_csv("titanic_train.csv") # 空值处理：删除掉空值，为了看排序结果的方便 data = data.dropna() # 排序：用年龄排序： Age ，inplace( 是否生成新的 df ) data

2020-07-04 20:23:59 11106

原创 09 ，df 空值：空值处理，每列空值数，单列空值数，删除空值列，行，空值默认值

1 ，每列有多少空值： data.isnull().sum()代码：if __name__ == '__main__': # 读文件 csv data = pd.read_csv("titanic_train.csv") # 空值统计 res = data.isnull().sum() print(res)================================PassengerId 0Survived 0Pcla

2020-07-04 17:43:08 1422

原创 08 ，df 列操作：字段名，dtype 字段类型，字段操作案例，列计算，大，小，平均值

1 ，字段名： data.columns代码：if __name__ == '__main__': # 读文件 csv data = pd.read_csv("titanic_train.csv") # 所有字段： cols = data.columns print(cols)==================================Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'S

2020-07-04 17:05:56 1022

原创 07 ，df 列操作，行操作：增，删，改，查，计算，列过滤

1 ，列操作，查：data[“Age”]代码：if __name__ == '__main__': # 全列显示： pd.set_option('display.max_columns', None) # 读文件 csv data = pd.read_csv("titanic_train.csv") df_age = data["Age"] print(df_age)=======================================

2020-07-04 00:21:23 1306

原创 06 ，df 索引操作：提取小 df ( m行n列 )，所有字段名，索引操作，自定义索引

1 ，所有字段名： data.columns目的：得到所有字段名得到： index 对象取一个字段名： res[n]代码：if __name__ == '__main__': # 全列显示： pd.set_option('display.max_columns', None) # 读文件 csv data = pd.read_csv("titanic_train.csv") # 取数据 res = data.columns

2020-07-03 23:11:14 1902

原创 05 ，df 查看，数据查看：泰坦尼克数据，行列数，共几条，全列显示，前后 n 行

1 ，数据：泰坦尼克号数据介绍数据介绍：PassengerId,Survived,Pclass ,Name,Sex, Age,SibSp , Parch , Ticket,Fare , Cabin , Embarked票号是否幸存船舱等级姓名性别年龄同辈人数不同辈人数票号票价船舱号登船港口 1-生配偶儿女 0-死兄弟姐妹父母

2020-07-03 20:31:33 886

原创 04 ，df 创建：读 csv 文件，pd.read_csv

1 ，读 csv 文件：pd.read_csv(“titanic_train.csv”)读 csv 文件： pd.read_csv(“titanic_train.csv”)if __name__ == '__main__': # 读文件 csv data = pd.read_csv("titanic_train.csv") print(data) print(type(data))================================== P

2020-07-03 17:37:20 1296

原创 03 ，pd 基础： dataframe，df 创建，Series =》Dataframe，加行，加列

1 ，创建 df ，字典创建：pd.DataFrame(dict)代码：if __name__ == '__main__': dict = {"name":["wtt","dfl","xiaoya"],"age":[29,32,3]} df01 = pd.DataFrame(dict) print(df01)============================== age name0 29 wtt1 32 dfl2 3

2020-07-03 16:38:43 1286

原创 02 ，pd 基础：Series ，sr 是什么，创建 sr，索引取单值，索引取多值

1 ，pd 两种数据结构：Series ：序列，1 维数组dataframe ： 2 维表，由一堆 Series 组成，有行索引，列索引2 ，Series ： pd 中的基础数据结构

2020-07-03 14:40:33 751

原创 01 ，pandas 简介： pd 是什么，pd 数据结构，pd 数据类型，pd 的字符串类型 object

1 ，pandas 简介：pandas 是什么： pandas 是基于NumPy 的一种工具pandas 能干什么：数据分析pandas 提供了什么：大量的函数和方法

2020-07-03 10:34:04 2702

原创 12 ，np 数学函数：行列最大值索引，行列排序，三角函数

1 ，行列最大值：nd01.argmax(axis=0)，nd01.argmax(axis=1)代码：if __name__ == '__main__': # 造数据 ( 利用了正弦函数 ) nd01 = (np.sin(np.arange(20))).reshape(5,4) # 每一列的最大值，每一行的最大值 res01 = nd01.argmax(axis=0) res02 = nd01.argmax(axis=1) print(nd01)

2020-07-02 23:52:19 294

原创 11，np 常用函数：深浅拷贝

1 ，浅拷贝：同一对象 nd02 = nd01代码：if __name__ == '__main__': nd01 = np.arange(12).reshape(2,6) nd02 = nd01 print(nd01 is nd02)=================================True2 ，半深拷贝：不同对象，同一元素 nd02 = nd01.view()代码：元素会同步改变if __name__ == '__main__

2020-07-02 23:32:43 259

原创 10 ，np 常用函数：数学函数，pi ，e ，次方，根号，数学取整(3种)，矩阵拉直 ravel，自动变形 reshape

1 ，π ： np.pi代码：if __name__ == '__main__': print(np.pi)=================3.1415926535897932 ，e ：np.e代码：if __name__ == '__main__': print(np.e)=================2.7182818284590453 ，次方： np.power(a,3)代码：if __name__ == '__main__':

2020-07-02 22:58:20 11011

原创 09 ，np 常用函数：随机数 random ，两位小数 round，范围数 linespace，sin

1 ，随机创建 nd ： np.random.random((3,5))目的：创建矩阵，他的每个元素，都是 (0-1) 之间的任意数字代码：if __name__ == '__main__': nd01 = np.random.random((3,5)) print(nd01)==============================[[0.32329977 0.02613646 0.45362838 0.22721246 0.02853882] [0.6304352

2020-07-02 21:54:31 3161

原创 08 ，np 常用函数：顺序 arange，变形reshape，矩阵信息 ndim，size

1 ，顺序函数： np.arange(15)代码：if __name__ == '__main__': nd01 = np.arange(15).reshape((3,5)) print(nd01)====================================[[ 0 1 2 3 4] [ 5 6 7 8 9] [10 11 12 13 14]]2 ，跳数： np.arange(0,22,3)代码：if __name__ == '

2020-07-02 21:29:42 627

原创 07 ，ndarray 计算：总和，行和，列和，平均数

1 ，求 nd 的和：总和 sum()，行和sum(axis=1)，列和sum(axis=0)代码：if __name__ == '__main__': nd01 = np.array([[1,2,3,4], [2,3,4,5]]) print(nd01.sum()) print(nd01.sum(axis=1)) print(nd01.sum(axis=0))=============================

2020-07-02 20:53:40 1514

原创 06 ，dtype ：元素类型，类型检查 dtype ，类型转换 astype

1 ，numpy 的数据类型：比 python 多numpy 支持的数据类型：比 Python 内置的类型要多很多基本上：对应 C 语言的数据类型部分类型：对应 Python 内置类型。2 ，常见的数据类型：基本数据类型：2. bool_ 存储为一个字节的布尔值(真或假)3. int_ 默认整数，相当于 C 的long，通常为int32或int644. intc 相当于 C 的int，通常为int32或int645. intp 用于索引

2020-07-02 20:42:46 369

原创 05 ，numpy 矩阵操作：向量操作，矩阵操作，加和，数乘，内积，拼接，切割，转置，多乘扩展

1 ，向量 × 数字： nd01 * 2代码：if __name__ == '__main__': nd01 = np.array([1,2,3,4]) nd02 = np.array([2,3,4,5]) res = nd01 * 2 print(nd01) print(res)==========================[1 2 3 4][2 4 6 8]2 ，向量 + 向量： nd01 + nd02代码：if __nam

2020-07-02 20:08:45 328

原创 04，ndarray 操作：形状 shape ，nd 计算，作用于每个元素，取特定值，取偶数，取值布尔原理

1 ，nd 结构：几行几列 ( nd01.shape )代码：if __name__ == '__main__': nd01 = np.genfromtxt("world_alcohol.txt",skip_header=1,delimiter=",") res = nd01.shape print(res)=====================(997, 5)2 ，nd 计算：作用于每个元素 ( nd02 = nd01 + 1 )nd 的计算不仅对一

2020-07-02 19:55:49 477

原创 03 ，ndarray 创建，取值：创建 ndarray，读文件，取数据，取行，取列，取元素

1 ，创建 ndarray ： 1 维向量 ( np.array )例如：if __name__ == '__main__': nd01 = np.array([1,2,3,4,5]) print(nd01)===============================[1 2 3 4 5]2 ，创建 ndarray ： 2 维向量 ( np.array )例如：if __name__ == '__main__': nd01 = np.array([[1,

2020-07-02 14:36:02 1595

原创 02 ，ndarray 介绍：n 维向量，ndarray 组成，元素类型一致

1 ，ndarray 是什么：n 阶向量2 ，ndarray 组成：如图：指针：指向数据数据类型： dtype ( darray 中的所有数据都是同样的类型 )形状元组： shape ( 各维度大小 )跨度元组： stride ( 从一个元素到下一个元素之间的跨度 )3 ，ndarray 类型：注意 ( 数据一致 )数据一致：不管 ndarray 中有多少数据，他们只有一个类型例如：# Author:SFLimport numpy as npi

2020-07-02 12:38:13 507

原创 01，numpy 简介：数据分析库

1 ，numpy 是什么：他是：一个科学计算库针对： n 维矢量 ( n 阶矩阵 )提供：大量的数学函数库2 ，numpy 能做什么：数学逻辑形状操作排序I/O离散傅里叶变换基本线性代数基本统计运算随机模拟3 ，经常一起连用的组合：numpy ：科学计算pandas ：对于 numpy ，提供更多函数scipy ：封装 numpy ，高阶抽象和物理模型。比方说做个傅立叶变换matplotlib ：画图seaborn ：基于matplotl

2020-07-02 10:06:38 188

Typora-课件.zip

空空如也