排序:
默认
按更新时间
按访问量

模型评估与选择

本文是周志华《机器学习》第二章的学习笔记。 衡量指标 错误率error_rate=分类错误的样本数/样本总数;精度accuracy=1-错误率。 训练误差:学习器在训练集上的误差;泛化误差:学习器在新样本上的误差。 过拟合:把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,...

2018-02-25 08:56:29

阅读数:199

评论数:0

隐马尔可夫模型hidden Markov model

本文是《统计学习方法》李航著学习笔记。 为了叙述方便,将hidden Markov model简称HMM。HMM是一种用于标注问题的生存模型,模型工作过程:“隐藏的马尔科夫链”随机生成“不可观测的状态序列”,“每个状态”生成“一个观测”,从而得“观测序列”。在标注问题中,给定“最终的观测序列”...

2017-10-20 19:16:39

阅读数:211

评论数:0

EM算法expection maximization

本文是《统计学习方法》李航著学习笔记。

2017-10-17 18:38:42

阅读数:195

评论数:0

提升方法boosting

本文是《统计学习方法》李航著学习笔记。

2017-10-10 02:33:54

阅读数:268

评论数:0

支持向量机support vector machines

本文是《统计学习方法》李航著学习笔记。 为了叙述方便,将support vector machines简称SVM。SVM是一种二类分类模型,利用SVM对预测实例点进行分类就是根据决策函数的符号划归正负类,下面论述过程主要是有关SVM的模型学习过程。通常针对三种情况构建SVM学习模型: 1.)对...

2017-10-04 20:20:19

阅读数:1953

评论数:0

逻辑斯谛回归与最大熵模型logistic regression/maximum entropy model

本文是《统计学习方法》李航著学习笔记。 为了叙述方便,将logistic regression mode简称LR,maximum entropy mode简称ME。LR和ME都是判别模型,即将预测实例点分配到“条件概率分布”最大的类中。下述讨论会着重于LR模型和ME模型的学习过程。 逻辑斯谛函...

2017-10-02 22:39:07

阅读数:238

评论数:0

决策树decision tree

本文是《统计学习方法》李航著学习笔记。 决策树是一种基本的分类与回归方法,这里主要讨论用于分类问题的决策树。

2017-09-19 10:25:07

阅读数:394

评论数:0

朴素贝叶斯法naive Bayes

本文是《统计学习方法》李航著学习笔记。

2017-09-18 10:04:24

阅读数:459

评论数:0

k近邻法k-nearest neighbor

本文是《统计学习方法》李航著学习笔记。

2017-09-17 17:32:22

阅读数:188

评论数:0

感知机perceptron

本文是《统计学习方法》李航著学习笔记。感知机是二类分类的线性分类模型,输入:实例的特征向量,输出:实例的类别。感知机学习:求将训练数据进行线性划分的分离超平面,即将实例化分为正负两类的分离超平面。数据集的线性可分性:感知机模型:损失函数:目标函数(算法优化目标,学习目标):这是一个无约束优化问题,...

2017-09-15 17:30:50

阅读数:452

评论数:0

聚类算法

本文是周志华《机器学习》第九章的学习笔记。 “无监督学习”通过对无标记训练样本的学习来揭示数据的内在性质及规律。通常,“无监督学习”包含的任务类型有“聚类”、“密度估计”、“异常检测”等,下述将主要对“聚类”进行讨论。 “聚类”任务可以作为一个单独过程,也可以作为分类等其他学习任务的前去过程,...

2018-06-20 22:38:09

阅读数:3

评论数:0

Java基本语法

数组 package com.imooc; import java.util.Scanner; public class HelloWorld{ public static void main(String[] args) { int[] stu=new int[5];...

2018-05-30 18:22:04

阅读数:26

评论数:0

Spark的基本结构及SparkSQL组件的基本用法

(1)有关sbt的理解参见: https://www.scala-sbt.org/0.13/docs/zh-cn/Getting-Started.html (2)基于Intellij IDEA的Scala环境搭建和学习教程,参考易百教程: https://www.yiibai.com/sca...

2018-04-27 23:40:03

阅读数:78

评论数:0

Scala编辑环境及基本语法

实验环境:(1)REPL(2)IntelliJ IDEA(15 CE)

2018-04-25 22:42:57

阅读数:41

评论数:0

sklearn库Ensemble集成模型框架及API使用(待整理)

sklearn.ensemble.AdaBoostClassifier(base_estimator=None, n_estimators=50, learning_rate=1.0, algorithm=’SAMME.R’, random_state=None)

2018-04-18 18:32:23

阅读数:76

评论数:0

sklearn库Preprocessing and Normalization预处理方法及API使用

sklearn.preprocessing.Binarizer(threshold=0.0, copy=True) 根据阈值,进行特征二值化映射 threshold:阈值,默认是0,大于阈值映射为1,小于阈值映射为0;在稀疏矩阵中,该阈值参数一般不会小于0 copy:当二值化前的输入...

2018-04-16 15:00:34

阅读数:76

评论数:0

分类问题ROC曲线和KS曲线的绘制

ROC曲线与AUC ROC曲线下方的面积是AUC,AUC表示对于随机选择的正类别样本确实为正类别,以及随机选择的负类别样本为正类别,分类器更确信前者的概率。 分类问题的模型评估理论参考: http://blog.csdn.net/cymy001/article/details/7936675...

2018-03-19 16:43:28

阅读数:704

评论数:0

相关系数矩阵与热力图heatmap(Python高级可视化库seaborn)

相关系数矩阵 通常,样本是由多维特征的构成的,把每个特征维度都看成一个随机变量,为了考查两两特征间的关系,可以借助随机变量的协方差。 协方差是对两个随机变量联合分布线性相关程度的一种度量。 cov(Xi,Xj)=E[(Xi−E(Xi))(Xj−E(Xj))]var(Xi)=E[(Xi−E...

2018-03-16 00:26:31

阅读数:1369

评论数:1

sklearn库feature selection特征选择算法及API使用

sklearn.feature_selection特征选择模块包括:univariate filter selection methods单变量过滤选择方法;recursive feature elimination algorithm递归特征移除方法 Removing features...

2018-03-02 18:01:59

阅读数:146

评论数:0

sklearn库classification metrics分类问题评价准则及API使用

accuracy_score(y_true,y_pred,normalize=True,sample_weight=None)Returns:score(float) 总共有nsamplesnsamplesn_{samples}个样例,y^iy^i\hat{y}_i是第iii个样例的预测值,...

2018-03-02 17:01:00

阅读数:167

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭