机器学习
shiinerise
程序媛 ~ sunshine ~ 有强迫症 =.=
展开
-
机器学习task1——线性回归
1 过拟合参考链接:机器学习中用来防止过拟合的方法有哪些https://www.zhihu.com/question/59201590/answer/167392763Normalization方法:BN,LN 等https://mp.weixin.qq.com/s/GveZUIoFtyKpbpEtSbSvCgL1 与 L2 正则化的区别https://zhuanlan.zhihu.c...原创 2020-04-21 08:40:43 · 258 阅读 · 0 评论 -
机器学习笔记week2——最大似然估计,交叉熵,分类指标F1、ROC等
文章目录1 梯度更新方式1.1 凸集1.2 凸函数2 线性回归矩阵形式2.1 奇异矩阵3 最大似然估计4 逻辑回归4.1 交叉熵损失函数5 分类指标1 梯度更新方式1.1 凸集凸集:一个点集 S 被称为凸集,当且仅当该 S 里的任意两点 A 和 B 的连线上任意一点同样属于 Stx1+(1−t)x2∈St x_{1}+(1-t) x_{2} \in Stx1+(1−t)x2∈Sfor...原创 2020-03-19 11:54:20 · 1293 阅读 · 0 评论 -
机器学习笔记week1——奥卡姆剃刀原则、L1与L2范数正则化、模型泛化性
本系列是学习伯禹《机器学习》的笔记,主要记录自己在学习过程中的盲点和细节继续加油叭fighting本篇目录1 奥卡姆剃刀原则2 L1 与 L2 范数正则化2.1 L1与L2范数正则化可以降低过拟合程度:2.2 L1正则化和L2正则化:2.3 L1正则化不能求导吗?那怎么优化呀?2.4 为什么一般用L2比L1多?3 模型泛化性3.1 泛化能力3.2 泛化误差3.3 泛化误差上界1 奥卡姆剃刀原则...原创 2020-03-09 15:38:50 · 1217 阅读 · 0 评论 -
K-MEANS算法
一、聚类思想 所谓聚类算法是指将一堆没有标签的数据自动划分成几类的方法,属于无监督学习方法,这个方法要保证同一类的数据有相似的特征,如下图所示: 根据样本之间的距离或者说是相似性(亲疏性),把越相似、差异越小的样本聚成一类(簇),最后形成多个簇,使同一个簇内部的样本相似度高,不同簇之间差异性高。二、k-means聚类分析算法相关概念:K值:要得到的簇的个数质心:每个簇的...转载 2019-12-29 17:49:23 · 1459 阅读 · 0 评论 -
决策树
目录1、基本概念2、 决策树的构造2.1、ID3算法 / 信息熵2.2、C4.5算法 / 增益率2.3、CART算法 / 基尼指数3、剪枝操作4、 连续值与缺失值处理4.1、连续值离散化4.2、缺失值处理1、基本概念顾名思义,决策树是基于树结构来进行决策的,在网上看到一个例子十分有趣,放在这里正好合适。现想象一位捉急的母亲想要给自己的女娃介绍一个男朋友,于是有了下面的对话:...转载 2019-12-29 17:46:08 · 336 阅读 · 0 评论 -
泰坦尼克号的逻辑回归模型
逻辑回归算是机器学习中最基础的模型了,回归模型在做分类问题中有着较好的效果。下面介绍下利用sklearn做逻辑回归模型 做模型一般分为:提取数据---->了解数据(所谓的探索性数据)---->数据预处理(包括但不限于填充缺失值,特征提取,转换哑变量)---->选择模型---->验证模型---->模型优化下面先简单介绍下逻辑回归的原理: 说到逻辑回归就不得...转载 2019-12-15 16:52:29 · 2219 阅读 · 0 评论 -
线性回归的数学推导
一元线性回归多元线性回归参考链接:线性回归 正规方程详细推导原创 2019-12-01 22:09:20 · 341 阅读 · 0 评论 -
详解 F1 Score,P-R,ROC,AUC
一、混淆矩阵(confusion matrix)对于二分类问题来说,可将样例根据其真实类别与模型预测类别的组合划分为真正例(true positive)、假正例(false positive)、真反例(true negative)、假反例(false negative)四种情况,其混淆矩阵(confusion matrix)如下:预测值(正例)预测值(反例)真实值(正例)...原创 2019-11-22 20:45:37 · 5037 阅读 · 1 评论 -
数据预处理入门
以 sklearn 中的鸢尾花数据集为例来对数据预处理进行说明。鸢尾花数据集内包含 3 类共 150 条记录,每类各 50 个数据,每条记录都有 4 项特征:花萼长度(sepal length)、花萼宽度(sepal width)、花瓣长度(petal length)、花瓣宽度(petal length)。导入鸢尾花数据集的代码如下:from sklearn.datasets import l...原创 2019-11-19 20:16:49 · 415 阅读 · 0 评论 -
kNN处理鸢尾花数据集
kNN 处理鸢尾花数据集kNN(K Nearest Neighbor)算法是机器学习中最基础入门,也是最常用的算法之一,可以解决大多数分类与回归问题。这里以鸢尾花数据集为例,讨论分类问题中的 kNN 的思想。鸢尾花数据集内包含 3 类共 150 条记录,每类各 50 个数据,每条记录都有 4 项特征:花萼长度(sepal length)、花萼宽度(sepal width)、花瓣长度(petal...原创 2019-11-08 16:18:19 · 3831 阅读 · 0 评论 -
Transformer中的Attention
Transformer中的AttentionIntroduction读attention is all you need该论文有感。这篇论文是谷歌17年在机器翻译任务中提出的一种新的序列转换模型”Transformer“。传统的序列转换模型是用RNN和CNN做的,为了使这些模型表现的更好,通常还加入了attention,也就是注意力机制。本文提出的transformer模型,完全摒弃了RNN...原创 2019-10-25 11:25:51 · 1213 阅读 · 0 评论