自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 How to Download a Windows 10 ISO Without the Media Creation Tool

How to Download a Windows 10 ISO Image FileTo get started, open Chrome and head to the Microsoft Windows download website.CN-Version.Click the three dots at the top of your Chrome browser, and then...

2020-03-06 20:58:57 3752

原创 回归分析

这里写自定义目录标题一元线性回归相关关系最小二乘法拟合优度检测显著性检验回归预测残差分析多元线性回归多重共线性变量选择与逐步回归一元线性回归相关关系最小二乘法拟合优度检测显著性检验回归预测残差分析多元线性回归多重共线性变量选择与逐步回归...

2020-01-18 21:09:34 1732

原创 假设检验

CONTENTS原假设备择假设两类错误显著性水平P值单侧检验双侧检验假设检验又称统计假设检验,是用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。显著性检验是假设检验中最常用的一种方法,也是一种最基本的统计推断形式,其基本原理是先对总体的特征做出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受做出推断。常用的假设检验方法有Z检验、t检验、卡方检验...

2020-01-05 19:38:45 3061

原创 参数估计(python实现)

求置信区间抽取样本, 样本量为200np.random.seed(42)coffee_full = pd.read_csv('coffee_dataset.csv')coffee_red = coffee_full.sample(200) #this is the only data you might actually get in the real world.coffee_red...

2019-12-29 15:38:43 1214

原创 聚类算法K-means

CONTENTSK-Means聚类原理聚类簇数 KKK 值的选择KKK 个聚类中心点的初始值选择距离度量方式损失函数的选择K-Means算法流程小结优点缺点K-Means聚类原理K-Means 聚类过程时,涉及四个关键点,即聚类簇数 KKK 值的选择、KKK 个聚类中心点的初始值选择、举例度量方式、损失函数的选择。聚类簇数 KKK 值的选择聚类簇数 KKK 值的选择是一个比较难处理的点,它...

2019-12-28 22:43:11 581

原创 参数估计

CONTENTS点估计矩估计区间估计样本量的确定点估计点估计是用样本统计量来估计总体参数,因为样本统计量为数轴上某一点值,估计的结果也以一个点的数值表示,所以称为点估计。点估计和区间估计属于总体参数估计问题。何为总体参数统计,当在研究中从样本获得一组数据后,如何通过这组信息,对总体特征进行估计,也就是如何从局部结果推论总体的情况,称为总体参数估计。矩估计矩估计,即矩估计法,也称“矩法估计”...

2019-12-22 21:24:08 1710

原创 决策树

CONTENTS特征选择熵信息增益信息增益比基尼系数决策树的生成CART决策树决策树的剪枝决策树是一种树状结构,可以进行基本的分类与回归,同时也是集成方法经常采用的基模型。总体来说,各种决策树主要涉及三要素,分别是特征选择、决策树的生成和决策树的剪枝。特征选择在建立决策树的过程中,每次特征选择时,是有一套标准的,下面就来介绍一下信息增益、信息增益比、基尼系数等。熵日常生活中,当我们要搞...

2019-12-22 20:17:16 207

原创 python实现抽样分布的验证

CONTENTS1 卡方分布2 标准正态分布3 T分布4 F分布5 一般正态分布1 卡方分布import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport scipyimport scipy.stats as statsdf = pd.read_excel('/Users/Downloads/da...

2019-12-15 22:20:12 283

原创 逻辑回归

CONTENTS1、逻辑回归概述2、逻辑回归原理2.1、逻辑回归模型2.2、 逻辑回归学习策略3、小结3.1、优点3.2、缺点1、逻辑回归概述简单来说,逻辑回归模型就是讲线性回归模型的结果输入一个sigmoid函数,将回归值映射到0 ~ 1,表示输出为类别 1 的概率。2、逻辑回归原理2.1、逻辑回归模型线性回归表达式如下:zi=w⋅xi+bz_i = \boldsymbol{w}\...

2019-12-15 20:40:53 243

原创 抽样分布

CONTENTS常用统计量样本均值样本方差样本偏度样本峰度次序统计量充分统计量常用抽样分布卡方分布T分布中心极限定理(其他重要抽样分布)常用统计量样本均值样本均值又叫样本均数。即为样本的均值。均值是表示一组数据集中趋势的量数,是指在一组数据中所有数据之和再除以这组数据的个数。它是反映数据集中趋势的一项指标。样本均值则是在总体中的样本数据的均值。样本方差先求出总体各单位变量值与其算术平均数...

2019-12-05 21:23:36 285

原创 最优化方法:梯度下降

CONTENTS1、梯度下降1-1)引入1-2)梯度下降法原理1-3)梯度下降法的推导2、随机梯度下降2-1)随机梯度下降法过程通过定义损失函数并采用最小化损失函数策略,我们就能将目标问题转化为最优化问题。求解该问题的优化算法很多,最常用的就是梯度下降法。1、梯度下降1-1)引入计算机在运用迭代法做数值计算时,只要误差能够收敛,计算机经过一定次数的迭代后是可以给出一个真实解很接近的结果。...

2019-12-05 20:49:12 437

原创 概率分布(python实现)

CONTENTS

2019-12-01 18:36:06 267

原创 线性回归算法

CONTENTS引入线性回归模型线性回归模型流程简单线性回归引入回归分析是一种预测性建模技术,主要用来研究因变量(yiy_iyi​)和因变量(xix_ixi​)之间的关系,通常被用于预测分析、时间序列等。回归分析,就是使用曲线或曲面来拟合某些已知的数据点,使数据点离曲线或曲面的举例差异达到最小。有了这样的回归曲线或曲面后,我们就可以对新的自变量进行预测,即每次输入一个自变量后,根据该回归曲线...

2019-12-01 16:42:15 155

原创 概率分布

CONTENTS1、基本概念1.1)随机变量1.2)古典概率1.3)条件概率1.4)离散变量1.5)连续变量1.6)期望值1.7)大数定律2、离散变量概率分布2.1)二项分布2.2)伯努利分布2.3)泊松分布3、分布的形状3.1)均匀分布3.2)正态分布3.3)指数分布1、基本概念1.1)随机变量1.2)古典概率1.3)条件概率1.4)离散变量1.5)连续变量1.6)期望值1.7)...

2019-11-24 20:30:53 375

原创 「特征工程」初探

CONTENTS1、数据清洗1.1)直接删除缺失数据1.2)固定值填充1.3)均值/中位数填充1.4)相邻值填充1.5)模型预测填充2、特征处理2.1)归一化2.2)标准化2.3)离散化2.4)one-hot编码1、数据清洗数据清洗主要是对原始给定的数据进行规整化,目的是得到一份适合机器学习模型处理的基本数据集。一般在实际业务场景下,得到的数据会存在缺失的情况。大部分机器机器学习模型不能自...

2019-11-24 20:17:44 160

原创 描述性统计(python实现)

读取数据import pandas as pdimport numpy as npdata = pd.read_excel('./practice(I).xlsx')均值mean = data.mean()print(mean)结果:data 4.41774dtype: float64众数mode = data.mode().iloc[0]print(mode...

2019-11-17 16:00:06 184

原创 「如何评价模型的好坏」--- 小谈机器学习基础知识

这里写自定义目录标题欢迎使用Markdown编辑器数据拆分评价分类结果评价回归结果欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。数据拆分评价分类结果评价回归结果...

2019-11-17 14:24:34 372 1

原创 初探kNN

概述k近邻的思想就是:对于任意一个新的样本点,我们可以在这M个已知类别标签的样本点中选取K个与其距离最接近的点作为它的最近邻点,然后统计这个K个最近邻点的类别标签,采取多数投票表决的方式,即把这K个最近老点中绝大多数类别的点所对应的类别拿来当作要预测点的类别。k近邻分类原理k近邻模型主要有三个要素,即K值的选择、距离的度量方法、分类决策规则。K值的选择K值的选择会对k近邻法的结果产生较大...

2019-11-10 23:10:52 128

原创 描述性统计

引言上一节,我们谈了数据可视化,并且用python代码对图像进行了简单的实现。但是,这仅仅使得我们对数据分布的形状和特征有了一个大概的了解。想要全面了解数据分布的特征,还需要找到反应数据分布特征的各个代表值。数据分布的特征可以从三个方面进行测度和描述:1、分布的集中趋势,反应各数据向其中心值靠拢或聚集的程度;2、分布的离散程度,反应各数据远离其中心值的趋势;3、分布的形状,反应数据分布的偏态和峰...

2019-11-10 21:55:07 836 1

原创 数据可视化(python代码实现)

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...

2019-11-03 08:46:06 3939 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除