数据分析
math_gao
这个作者很懒,什么都没留下…
展开
-
Python中经常使用的操作
文件读写open、字符串操作、set操作、unicode编码字符、zip、迭代next、多条件判断、list的简单表达式、图像可视化中的中文标签显示原创 2021-12-21 11:30:26 · 724 阅读 · 1 评论 -
机器学习 -- 维度灾难:降维技术
原创 2021-09-11 16:40:07 · 169 阅读 · 0 评论 -
Python -- Sklearn:主成分分析PCA代码实现
import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns# 导入主成分分析包from sklearn.decomposition import PCAimport warningswarnings.filterwarnings("ignore")# 初始化数据集from sklearn.datasets import load_breast_cancercan原创 2021-09-09 17:22:46 · 1021 阅读 · 3 评论 -
Python -- Pandas & Sklearn:选取训练集&测试集
1. Pandas 中的 samplen,设置直接取原数据中的多少数据。frac,设置取原数据的多少比例。df = pd.DataFrame(np.random.randn(400).reshape(100,4))df.head() 0 1 2 30 0.014483 0.044465 0.850342 0.7642591 0.967565 0.174887 0.519950 0.4509562 -0.669433 -0.629411 -1.288723 0.1197293 0.995928原创 2021-03-22 14:31:21 · 2418 阅读 · 0 评论 -
Python -- Pandas:根据列数据取多行
lt = [['zoo',2],['foo',1],['zff',2],['zoo',6],['dff',0]]df = pd.DataFrame(lt, columns=['string','int'])dfstring int0 zoo 21 foo 12 zff 23 zoo 64 dff 0df[ df['string'].isin( ['zoo','zff'] ) ] # 一列数据满足多个值的行string int0 zoo 22 zff 23 zoo 6df原创 2021-01-08 17:08:47 · 1949 阅读 · 0 评论 -
Python -- Pandas:读取时间序列的某些年月日的行
ts = pd.Series(np.random.rand(30))ts.index = pd.date_range('2013-05-01', periods = 30, freq='q')ts.head()2013-06-30 0.6301272013-09-30 0.6498872013-12-31 0.5554492014-03-31 0.1726442014-06-30 0.375650Freq: Q-DEC, dtype: float64ts[原创 2021-01-08 16:53:29 · 1031 阅读 · 0 评论 -
Python - Seaborn:画出一数值列的概率分布曲线及中位数线、平均数线
生成偏态分布的代码:import seaborn as snssns.set()import matplotlib.pyplot as plt# s:一个数值型的 Seriessns.kdeplot(s, shade=True) # 给出 s 的概率密度曲线plt.axvline(s.mean(), label='mean',linestyle='-.', color='r')plt.axvline(s.median(), label='median',linestyle='-.',.原创 2020-12-22 14:18:07 · 2646 阅读 · 0 评论 -
时间序列模型ARMA/ARIMA(二)
文章目录时序特点时序模型的前提时序模型的自相关图和偏自相关图时列模型训练&检验&预测模型评价时序特点一系列相同时间间隔的数据点只有一列数据,没有变量与变量之间的关系 线性回归中,有自变量和因变量数据在时间上有相关性,即前后相关 线性回归中,数据点间相互独立用历史数据预测未来数据时序模型的前提平稳性 数学上,时序的期望和方差基本上不随时间变动。 时序图上,数据点围绕一个常数上下波动。 统计学上,p-value 是否小于显著水平原创 2020-11-19 21:12:44 · 968 阅读 · 0 评论 -
Python -- Sklearn:MinMaxScaler(将数据预处理为(0,1)上的数)
方法一:自定义处理# 将数据scale为(0,1)间数据scaled_df = (df - df.min()) / (df.max()-df.min()) # 将(0,1)间数据scale回原来的范围scaled_df * (df.max() - df.min()) + df.min()方法二:MinMaxscalerfrom sklearn.preprocessing import MinMaxScalerscaler = MinMaxScaler(feature_range=(0,原创 2020-11-16 17:57:24 · 10686 阅读 · 0 评论 -
Python -- Numpy:添加一列
np.insert 指定位置添加一列a = np.arange(12).reshsape(3,4)print(a) array([[ 0, 1, 2, 3], [ 4, 5, 6, 7], [ 8, 9, 10, 11]]) b = np.ones(3)print(b)array([1., 1., 1.])np.insert(a,0,b,axis=1)array([[ 1, 0, 1, 2, 3], [ 1原创 2020-11-12 12:45:42 · 24350 阅读 · 1 评论 -
Python -- Pandas:DataFrame上添加新列
方法一在所有列后面添加新列df['新列名'] = new_value # new_value:列表 or 1d_array or Series方法二在指定位置添加新列,且直接修改原数据框&不返回值df.insert( int, '新列名', new_value) # int:指定位置的位置索引(从0开始的数字)# 新列名、new_value:同上...原创 2020-11-12 11:15:02 · 8544 阅读 · 0 评论 -
Python -- Matplotlib:解决标签(xlabel/ylabel)或标题(title)的中文显示问题
1. 解决标签的中文显示问题# 这里的 `Microsoft YaHei` 可以换成其它的中文字体# plt.xlabel/ylabel 中的中文标签会自动显示plt.rcParams['font.sans-serif'] = ['Microsoft YaHei']2. 解决标签的中文显示问题from matplotlib.font_manager import FontPropertiesfont_set = FontProperties(fname=r"C:\Windows\Fonts\s原创 2020-11-10 10:32:44 · 2103 阅读 · 0 评论 -
Python -- Matplotlib:画一条水平线或竖直线
竖直线# 画出 x=2 这条垂直线plt.axvline(2) 点击此链接axvline查看帮助文档水平线# 画出 y=1 条水平线plt.axhline(1) 点击此链接axhline查看帮助文档原创 2020-11-10 09:41:53 · 61399 阅读 · 1 评论 -
Python -- jupyter notebook的常用快捷操作
文章目录Ctrl系列Esc系列Shift系列运行一劳永逸Ctrl系列 Ctrl + /对选中的未注释的内容,加注释。对选中的已注释的内容,取消注释。 Ctrl + [选中内容,批量向左缩进。 Ctrl + ]选中内容,批量向右缩进。 Ctrl + A一次性全选中一个cell中的内容。 Ctrl + Z撤销刚删除的内容。Esc系列 Esc + A、B当前的cell上、下面添加新的cell。 Esc + X删除当前cell。 Esc + Z恢复被删除的cell。 E原创 2020-11-09 10:50:26 · 992 阅读 · 0 评论 -
Python -- 安装与卸载(解决了tensorflow的安装问题)
文章目录Python安装Python卸载Python安装点击链接https://www.python.org/downloads/进入下载页面选择与自己的电脑匹配的操作系统进入与此系统匹配的各个版本的Python包,然后选择对应位数的executable installer版本(我自己的是windows,这里是对windows的Python包。x86-64是64位,x86是32位)然后下载安装包即可 安装的时候环境变量要选择设置,其它的均为默认设置注: pip是原创 2020-11-08 14:04:41 · 2491 阅读 · 1 评论 -
Python -- Matplotlib:设置画布大小和子图个数
只有一个子图时plt.figure() #原创 2020-11-05 22:29:36 · 30390 阅读 · 3 评论 -
Python -- Numpy:数据排序
sorted# 返回排好序的一维数组;不修改原数组sorted(1d_arr) sort# 不返回值;直接将原数组排序1d_arr.sort()1d_arr np.sort# 返回排好序的数组;不修改原数组np.sort(arr, axis=-1)# axis:设置排序的轴向arr是一维时,同sortedarr是二维时,沿axis=1方向arr是三维及以上时,沿最后一个轴向...原创 2020-11-04 22:39:47 · 1146 阅读 · 0 评论 -
Python -- Pandas: pivot_table用法
文章目录pivot_table用途pivot_table用途参数原创 2020-11-04 22:21:11 · 1934 阅读 · 0 评论