![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
杂
文章平均质量分 72
沉住气CD
这个作者很懒,什么都没留下…
展开
-
统计量及抽样分布
(1)样本均值反映总体X数学期望的信息,是最常用的统计量。(2)样本方差反映总体X方差的信息。(3)样本变异系数反映总体变异系数C的信息,用来刻画离散程度。(4)样本k阶矩反映总体k阶矩的信息,m1就是样本均值。(5)样本k阶中心矩反映总体k阶中心矩的信息,v2就是样本方差。(6)样本偏度反映总体偏度的信息。偏度反映了随机变量密度函数曲线在众数(密度函数在这一点达到最大值)两边的偏斜性。正态分布偏度为0。(7)样本峰度反映总体峰度的信息。原创 2023-11-18 19:55:39 · 110 阅读 · 0 评论 -
统计学之假设检验
事先确定显著水平为0.05,双边检验P原创 2023-11-27 17:29:06 · 417 阅读 · 0 评论 -
十大机器学习算法之KNN(用于信用风险)
k-Nearest Neighbor(简称KNN)是“懒惰学习”的代表,此类技术在训练阶段仅仅是将训练样本保存起来,不会去构造一个泛化的内部模型,即训练开销为零,带收到测试集时再进行处理,与之对应的是“急切学习”。 算法原理:对给定的测试样本,基于某种距离度量寻找与其相邻最近的k个训练样本,再依据“投票法”(分类)或“平均法”(回归)确定其分类,显然在k取不同值的时候,结果可能是...原创 2018-09-06 09:49:16 · 1665 阅读 · 1 评论 -
十大机器学习算法之决策树(用于信用风险)
算法原理Decision Trees (DTs) 是一种用来 classification 和 regression 的无参监督学习方法。其目的是创建一种模型从数据特征中学习简单的决策规则来预测一个目标变量的值。决策树类似于流程图的树结构,分支节点表示对一个特征进行测试,根据测试结果进行分类,树节点代表一个类别。例如,在下面的图片中,决策树通过if-then-else的决策规则来学习数...原创 2018-09-06 10:07:43 · 3479 阅读 · 1 评论 -
机器学习部分理论基础
一、过拟合和欠拟合 过拟合(高方差)是指模型对训练集的拟合性很好,但是对新数据的预测性能很差。欠拟合(高偏差)是指模型不能很好地拟合训练样本,并且对测试集的预测准确率也不高。 二、成本函数 成本是针对所有的训练样本,模型拟合出来的值与训练样本真实值的误差平均值。模型训练的过程,就是找出合适的模型参数,使得成本函数的值最小。记为J(θ),其中θ为模...原创 2018-09-06 10:15:34 · 545 阅读 · 1 评论 -
sklearn中的数据预处理
机器学习算法最终学习结果的优劣取决于两个主要因素:数据的质量和数据中蕴含的有用信息的数量。一、缺失数据的处理<一>删除缺失值1. # Title : TODO 2. # Objective : TODO 3. 5. 6. 7. import numpy as np 8. import pandas as pd 9. from io i...原创 2018-09-06 10:39:35 · 446 阅读 · 1 评论 -
模型复杂度(待更)
如果一个模型在训练集上的表现要好于交叉验证集和测试集的化,这意味着模型是过拟合的。过拟合是指模型对训练集数据的特定观察值拟合的非常近,但训练集和测试集的真实数据分布并不一定是一致的,即模型存在较高的方差。产生过拟合的原因是建立在训练集上的模型过于复杂,而常用的降低泛化误差的方案有:收集更多的训练数据; 通过正则化引入罚项(在逻辑回归中已论述); 选择一个参数较少的简单的模型; 降低数据的...原创 2018-09-06 11:06:42 · 9131 阅读 · 0 评论 -
十大机器学习方法之聚类分析
聚类分析是一种无监督学习技术(常见的无监督学习还有密度估计、异常检测等),可以在事先不知道正确结果(即无类标或预期输出值)的情况下,发现数据本身所蕴含的结构信息。其目标是发现数据中自然形成的分组,使得每个簇内样本的相似性大于其他簇内样本的相似性。聚类的商业领域应用包括:按照不同主题对文档、音乐、电影进行分组,或基于常见的购买行为,发现有相同兴趣爱好的顾客,并以此构建推荐引擎。聚类既可以作为一个...原创 2018-09-12 14:37:10 · 9192 阅读 · 1 评论 -
机器学习之模型评估与参数调优
一、流水线工作流在利用训练数据对模型进行拟合时已经得到一些参数,使用流水线可以避免在将模型用于新数据时重新设置这些参数。利用sklearn中的Pipline类,使得我们可以拟合出包含任意多个处理步骤的模型,并将模型用于新数据的预测。1. # Title : TODO 2. # Objective : TODO 3. # Created by: Chen Da...原创 2018-09-13 20:46:27 · 1382 阅读 · 1 评论 -
集成学习与Python
一、基本概念集成方法(ensemble method)的目标是:将不同的分类器组合成一个元分类器,与包含于其中的单个分类器相比,元分类器具有更好的泛化性能。通常基于多数投票原则。假定二类别分类中的n个成员分类器有相同的出错率ε,并且各分类器相互之间独立。 #Title:TODO#Objective:TODO#Createdb...原创 2018-10-18 21:21:57 · 1360 阅读 · 1 评论 -
集成学习的一些算法
介绍几种常见的集成学习算法原创 2022-05-15 20:31:39 · 1630 阅读 · 0 评论 -
朴素贝叶斯原理
贝叶斯定理的公式为:式中,D为待测试数据假设的类别,P(D|h)是h的似然概率,P(h|D)是h的后验概率,P(D)是D的先验概率。贝叶斯理论提供了一种计算假设后验概率P(h|D)的方法,即后验概率与先验概率和似然概率的乘机成正比。极大后验假设(Maximum A Posteriori,MAP):定义学习器在候选假设集合H中寻找给定数据D时可能性最大的假设h。确定MAP的方法是用贝叶斯公式计算每个候选假设的后验概率,公式如下:多维属性的联合概率则可以写成:为解决计算时维度过高导致的原创 2022-05-15 20:46:51 · 283 阅读 · 0 评论 -
决策树算法简介
一、基础理论决策树的主要优点是模型具有可读性,分类速度快。学习时,会利用训练数据,根据损失函数最小化的原则建立决策树模型。预测时,对新的数据,可以利用决策树模型进行分类。通常包括3个步骤:特征选择、决策树的生成和决策树的修剪。 代表算法:①ID3算法——Quinlan,1986;②C4.5算法——Quinlan,1993;③CART算法——Breiman,1984.三种划分数据集的方法:①信息增益算法(ID3);②信息增益率(C4.5);③基尼指数(CART)。二、节点原创 2022-05-15 21:31:25 · 595 阅读 · 0 评论 -
Git教程
一、历史(喝水不忘挖井人) Linus在1991年创建了开源的Linux,从此,Linux系统不断发展,已经成为最大的服务器系统软件了。Linus虽然创建了Linux,但Linux的壮大是靠全世界热心的志愿者参与的,这么多人在世界各地为Linux编写代码,那Linux的代码是如何管理的呢?事实是,在2002年以前,世界各地的志愿者把源代码文件通过diff的方式发给Linus,然...原创 2018-10-19 20:03:28 · 219 阅读 · 0 评论