- 博客(20)
- 收藏
- 关注
原创 统计学-Week16
一、时间序列1.1 基本概念按照时间的顺序把一个随机事件变化发展的过程记录下来 就构成了一个时间序列。对时间序列进行观察、研究,找寻它变化发展的规律,预测它将来的走势就是时间序列分析。序列相关性: 时间序列的一个最重要特征是序列相关性,又称为自相关性。上图中可以看到,数据之间存在一定的正相关与负相关。例如某天的数据上升,它的前一天或者后一天也上升或者下降。自相关性是时间序列可以预测未来的前...
2020-03-01 22:35:56 397
原创 统计学-Week14
一、方差分析1.1 主题因子、水平、单因素方差分析、双因素方差分析、协方差分析二、 基本概念方差分析: 通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。因素/因子: 所要检验的对象称为因素或因子。水平/处理: 因素的不同表现称为水平或处理。观测值: 在每个因子水平下得到的样本数据称为观测值。三、 单因素方差分析1.1 概念单因...
2020-02-16 23:02:20 3075
原创 统计学-Week12
一、回归分析1.1 主题一元线性回归: 相关关系、最小二乘法、拟合优度检测、显著性检验、回归预测、残差分析多元线性回归: 多重共线性、变量选择与逐步回归二、https://blog.csdn.net/weixin_45780620/article/details/104026838https://blog.csdn.net/long636/article/details/10402...
2020-01-19 22:44:50 2658
原创 统计学-Week10
目录假设检验假设检验分类1.1 一个总体参数的假设检验1.2 两个总体参数的假设检验假设检验假设检验与之前提到的参数估计一样,是统计推断的两个组成部分,只是角度不同。参数估计是在总体参数μ未知的前提下用样本统计量进行估计的方法;而假设检验是先对总体参数μ提出一个假设,然后利用样本信息去检验这个假设是否成立。同样的这里先提出几个概念:原假设: 最先提出的假设参数,我们需要检验的对象,一般是一...
2020-01-05 22:34:38 458
转载 K-Means聚类算法
目录一、聚类与分类1.1 什么是聚类1.2 聚类和分类的区别?1.3 性能度量二、K-Means算法1.1 K-Means原理1.2 K-Means定义1.3 样例1.4 K-Means优缺点三、K-Means与KNN区别四、代码实现一、聚类与分类1.1 什么是聚类聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集成为一个“簇”。通过这样的划分,每个簇可能对应于一些潜在的概念(...
2019-12-29 20:04:37 769
原创 决策树
目录一、前言二、决策树的构建三、代码实现一、前言决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。Entropy...
2019-12-22 23:25:01 348
原创 统计学-Week8
目录一、点估计1.2 矩估计法1.3 最大似然估计二、区间估计1.1 一个总体参数的估计1.2 总体均值的区间估计:1.3 总体均值的区间估计1.4 总体比例的区间估计2.1 两个总体参数的估计1.1 两个总体均值之差的区间估计:1.2 两个总体方差比的区间估计:3.1 样本量的确定总体均值区间估计的样本量确定总体方差区间估计的样本量确定总体比率区间估计的样本量确定参数估计是用抽样分布作为中介,...
2019-12-22 14:13:00 1257
原创 逻辑回归
目录一、前言二、什么是逻辑回归一、前言逻辑回归(Logistic Regression,LR)。在Kaggle竞赛的统计中,LR算法以63.5%的出产率,荣获各领域中“出场率最高的算法”这一殊荣。在实际场景中,逻辑回归同样应用广泛,大到国家各项经济政策的制定,小到计算广告CTR,都能看到LR算的身影。除了应用广泛外,LR的建模过程还体现了数据建模中很重要的思想:对问题划分层次,并利用非线性变...
2019-12-15 23:32:11 304
原创 统计学-Week6
目录统计量及抽样分布1. 常用的统计量2. 抽样分布统计量及抽样分布总体就是我们想要研究的整个群体;参数就是描述总体的数值摘要;样本是总体的子集;统计量是描述样本的数值摘要抽样分布是样本的分布,也可以理解为一个统计量的分布(任何统计量)。所有参数从属于一个总体,所有统计量从属于一个样本下面是统计中的符号:1. 常用的统计量样本均值:样本的均值样本方差:现求出总体个数据与其算...
2019-12-07 23:17:08 1308
原创 线性回归(一)
一、简单线性回归1.1 什么是简单线性回归所谓简单,是指只有一个样本特征,即只有一个自变量;所谓线性,是指方程是线性的;所谓回归,是指用方程来模拟变量之间是如何关联的;简单线性回归,其思想简单,实现容易(与其背后强大的数学性质相关)。同时也是许多强大的非线性模型(多项式回归、逻辑回归、SVM)的基础。并且其结果具有很好的可解释性。1.2 求解思路回归重要的任务就是拟合,找到最佳的拟合...
2019-12-01 22:29:58 271
转载 统计学-Week5
目录概率分布1. 离散概率分布:伯努利分布(Bernoulli Distribution)2. 离散概率分布:二项分布(Binomial Distribution)3. 离散概率分布:几何分布(Geometric Distribution)4. 离散概率分布:泊松分布(Poisson Distribution)5. 连续概率分布:正态分布(Normal Distribution)概率分布概率分...
2019-11-26 23:02:57 485
原创 K最近邻(KNN)算法(二)
目录一. 数据归一化1.1 为什么要数据归一化1.2 数据归一化方法1.3 代码实现1.4 注意事项2. 待补充一. 数据归一化1.1 为什么要数据归一化通过KNN算法的实践中,样本的不同特征的单位不同,会在求距离时造成很大的影响。比如:在两个样本中肿瘤大小的分别为1cm和5cm,发现时间分别为100天和200天,那么在求距离时,时间差为100、大小差为4,那么其结果会被时间所主导,因为肿瘤...
2019-11-24 23:49:22 249
原创 统计学-Week4
目录1. 概率分布的基本概念1.随机事件2. 古典概率3. 条件概率2. 随机变量1. 概率分布的基本概念1.随机事件在同一组条件下,对某事物或现象所进行的观察或实验叫做试验,把观察或的结果叫做事件随机事件(random event)。在同一组条件下,每次试验可能出现也可能出现的事件,也叫偶然事件必然事件(certain event)。在同一组条件下,每次试验一定出现的事件不可能事件...
2019-11-24 16:43:50 333
原创 机器学习基础知识
目录一、机器学习基本步骤二、训练模型一、机器学习基本步骤收集数据: 无论是来自excel, access, text files等文件的原始数据,这一步(收集过去的数据)是未来学习的基础。相关数据的种类、密度和数量越大,机器的学习前景就越好准备数据: 任何分析过程都依赖于所使用数据的质量。我们需要花时间来确定数据的质量,然后采取措施来解决缺失数据和异常值的处理等问题。探索性分析可能是研究数...
2019-11-17 23:21:50 429
原创 K最近邻(KNN)算法
目录1. 算法介绍2. 算法流程梳理kNN算法流程如下:3. 分类算法样例代码实现:1. 算法介绍KNN算法中文名称叫做K近邻算法,是众多机器学习算法里面最基础入门的算法。它是一个有监督的机器学习算法,既可以用来做分类任务也可以用来做回归任务。KNN算法的核心思想是未标记的样本的类别,由距离他最近的K个邻居投票来决定。2. 算法流程通过理解算法思想,可以将其简化为“找邻居+投票”。K近邻法...
2019-11-10 11:02:01 586
原创 统计学-Week2
目录基本概念1. 集中趋势度量2. 集中趋势度量代码实现3. 离散程度度量4. 离散程度度量代码实现5. 分布形态基本概念1. 集中趋势度量2. 集中趋势度量代码实现import numpy as npimport pandas as pdfrom scipy import statsdef weighted_avg(values, weights): return (...
2019-11-10 09:47:36 397
原创 统计学-Week1
目录数据的图表展示基本概念1. 统计数据的类型1.1 品质数据1.2 数量数据2. 总体、样本、参数、统计量3.变量数据的图表展示基本概念1. 统计数据的类型1.1 品质数据分类数据:只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,是用文字来表述的。例如,人口按照性别分为男、女两类;为便于统计处理,对于分类数据可以用数字代码来表示各个类别,比如,用1表示“男性”...
2019-11-02 16:29:40 1055
转载 数据库-基本概念2
首先要明白”范式(NF)”是什么意思。按照教材中的定义,范式是“符合某一种级别的关系模式的集合,表示一个关系内部各属性之间的联系的合理化程度”。很晦涩吧?实际上你可以把它粗略地理解为一张数据表的表结构所符合的某种设计标准的级别。就像家里装修买建材,最环保的是E0级,其次是E1级,还有E2级等等。数据库范式也分为...
2019-08-02 22:05:28 128
原创 数据库-基本概念
前提说明 键字=码字,所以 主键=主码=主关键字,候选键=候选码=候选关键字1.1 基本概念元组:表中的一行记录就是元组码是数据系统中的基本概念。所谓码就是能唯一标识实体的属性,他是整个实体集的性质,而不是单个实体的性质。例如:学生是一个实体,则学生的集合是一个实体集。学生(实体)具有多个属性:学号、姓名、性别、年龄、系别、专业、身份证号等。最简单情况下,单个属性是码.最极端的情况下...
2019-08-01 21:43:52 1019
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人