数据分析-统计方法论
cc抱富
天下熙熙,皆为利来;天下攘攘,皆为利往
展开
-
统计分析方法论-----逻辑回归
1、逻辑回归模型1.1逻辑回归含义逻辑回归其实是一个分类算法,用于对样本数据进行分类的场景1.2、逻辑回归算法模型分类的依据为计算一个阈值,超过为A类,未超过为B类。逻辑回归的算法模型,与线性回归类似模型的理解:如2个参数即因变量x1和x2,那么阈值(决策边界的线)就是w1x1+w2x2+b=0这条直线(x1作为x轴,x2作为y轴,以此将平面分为2块,w1x1+w2x2+b结果即z大于0的部分为A类,z小于0的部分为B类)1.3、sigmoid函数理解sigmoid函数把z值(﹣原创 2020-12-17 17:41:01 · 767 阅读 · 0 评论 -
数据挖掘算法之-----KNN算法
1、KNN概念KNN算法:K-Nearest Neighbor,K近邻算法,即K个最近的邻居(近朱者赤近墨者黑)KNN即可用于分类,也可用于回归分类预测时,使用K个邻居中,类别数量(或加权后)作为预测的结果回归预测时,使用K个邻居的均值(或加权后),最为预测结果2、超参数概念超参数:人为指定,超参数不同对模型效果影响很大2.1、K值K值大,容错性增加,敏感性降低,易导致欠拟合K值小,容错性降低,敏感性增加,易导致过拟合极端情况,使用整个样本数量作为K值,那么无论预测值在哪,结果都原创 2020-07-19 23:03:22 · 1308 阅读 · 0 评论 -
sklearn评价指标——回归模型评估及分类模型评估使用的库、ROC曲线理解
1、线性回归评价指标#MSE均方误差from sklearn.metrics import mean_squared_error#MAEXfrom sklearn.metrics import mean_absolute_error#R^2决定系数from sklearn.metrics import r2_score2、分类指标:混淆矩阵confusion_matrix(y_true, y_pred, labels=None, sample_weight=None):通过计算混淆矩原创 2020-07-08 15:20:05 · 3350 阅读 · 0 评论 -
统计学方法论-----线性回归
np.random.seed(3)#所有的随机数都是伪随机,种子相同,随机数就相同random_state 随机种子train_test_split(X,y,test_size=0.25,random_state=0),其中random_state用于打乱样本顺序,设置为0为了排除在调整超参数建立模型的时候,顺序对模型的影响线性回归的结果为了损失最小(∑(实际y-预测y))bais:偏置weight:权重...原创 2020-07-05 23:27:14 · 949 阅读 · 0 评论 -
统计学方法论1---------描述性统计分析
1、相关概念数理统计:以概率论为基础,研究大量随机现象的统计规律性。描述统计推断统计描述性统计:从总体数据中提取变量的主要信息(总和,均值等),从总体层面上,对数据进行统计性描述2、统计量2.1、频数与频率导入相关模块import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsfrom sklearn.datasets import load_irisimp原创 2020-07-02 14:44:14 · 1338 阅读 · 0 评论 -
统计学方法论2---------推断统计分析:通过样本推断总体
1、概述总体、个体、样本2、点估计和区间估计2.1、点估计2.2、区间估计置信度:总体参数有多大的概率位于置信区间置信区间:原创 2020-07-04 16:23:21 · 8470 阅读 · 1 评论