自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 资源 (2)
  • 收藏
  • 关注

原创 机器学习:正则化

正则化引入正则化的目的是为了解决过拟合问题。左边的图中蓝色的线是目标函数,随机产生五个带噪声的点。我们理想的拟合曲线为红色的线,虽然有些许误差,但是整体拟合情况和目标函数接近。但是,事先不知道需要用二次曲线来拟合这些点。如果使用了更高次方的假设函数,可能就会出现右图中的情况。虽然在训练集上能很好的拟合这五个点,但是他与目标函数相差很大。在未来的预测过程中,犯错误的可能性也会很大。这就是过拟合。我们称HCH_CHC​为C次多项式。如H10H_{10}H10​为所有10次多项式的集合。有如下关系:高

2021-11-17 09:53:43 668

原创 机器学习:过拟合

过拟合通俗来讲过拟合就是,选用的模型过于复杂。dvcd_{vc}dvc​过大,模型在训练集上有很好的表现。但是在真实预测过程中的表现和训练集上的差别过大。也就是没有做到机器学习的两个核心要打求之一的Ein≈EoutE_{in}\approx{E_{out}}Ein​≈Eout​。过拟合详细分析假如有五个点是通过二次抛物线f(x)f(x)f(x)产生的,产生之后加入少量的误差f(x)=f(x)+noisef(x)=f(x)+noisef(x)=f(x)+noise。如上图中的五个点。我们的理想曲线是一

2021-11-15 15:37:25 2986

原创 机器学习:非线性模型解决分类问题

非线性模型线性模型在处理线性可分的资料时具有良好的表现,通过计算wTxw^TxwTx得到分数sss,然后进行取正负号操作也即:sign(s)sign(s)sign(s),将数据进行分类。通过不断的优化得到一个相对完美的www,就在空间中确定了一条直线,将数据进行完美的分类:但是,这种分类方式具有一定的局限性。对于线性不可分的数据,就显得有些力不从心了:对于上图的这种情况,无论怎么优化直线,在数据集D上的都不可能用一条直线将数据分开。这就意味着模型在训练集上会犯很大的错误,因此导致他的预测效果并不会

2021-11-14 15:15:09 2232

原创 机器学习:利用线性模型分类

线性模型在分类中的应用前面一共介绍了三种线性模型:线性分类,线性回归,逻辑回归 。三种模型有一个共同特点都需要计算一个得分:s=wTxs=w^Txs=wTx,线性分类对得出分数进行取正负号操作;线性回归直接输出得分结果;逻辑回归通过sigmoid函数映射得出概率。其中线性分类的误差是一个NP-hard问题,目前没有好的方法进行求解,那么能不能用逻辑回归或者线性回归来帮助线性分类解决这个问题呢?先来回顾一下三种模型的误差计算方式:将输出空间视为二元分类的情况也即:y=y=y={-1,+1},对误差函

2021-11-13 20:40:42 1392

原创 机器学习:逻辑回归

55

2021-11-12 12:01:47 1058

原创 机器学习:线性回归

线性回归之前介绍的信用卡发放列子,我们从数据集出发进行训练,最后得出的结论是:给或者不给。但是,我们想要从这些数据出发,最后让机器告诉我们给他们多大的额度是最合适的。这就是不同于之前提到的Linear Classification的Linear Regression线性回归问题。二者的区别我们可以从下图中进行区分:...

2021-11-11 11:08:17 642

原创 机器学习:噪声和错误

噪声和错误我们之前的研究都是假设在样本数据完美,没有噪声存在的前提下进行推导的。然后得出机器能够学到东西的结论,但是,现实中噪声的存在是不可避免的。所谓的噪声就是样本中有问题的点。以银行卡发放的列子,来阐述噪声产生的原因:样本标记错误。比如说应该发放银行卡的用户,错误的标记为不符合规定的用户。不同的评判标准,导致噪声的产生。比如两个用户的属性状态基本一致,判定一个发放另一个不发放。输入样本中存在噪声。也就是用户的信息输入有错误。来看一下有噪声的机器学习流程图:那么存在噪声时机器学习还能有效果吗

2021-11-10 12:52:52 4005

原创 机器学习--VC维

VC Dimension机器学习必须满足两个重要的条件,才能够学到有用的东西:假设空间H的size M有限,当N足够大的时候,挑选一个g,使得Ein(g)≈Eout(g)E_{in}(g)\approx E_{out}(g)Ein​(g)≈Eout​(g)利用

2021-11-09 23:04:59 972

原创 机器学习:训练与测试

1.训练与测试通过机器学习的可行性分析,我们得到了一些东西。首先根据NFL定理,机器学习可能行不通,随后根据统计学的相关知识,机器学习似乎又是可行的。但是这个似乎的可行性又有一点限制:M必须是有限的。M代表的含义是hypothesis的个数。那么当M是无限的时候机器学习还能进行下去吗?接下来的几篇笔记会对这个问题进行分析。1.1回顾...

2021-11-08 16:02:20 1397

原创 机器学习可行性分析

1.没有免费午餐定理机器学习的基本思路是:我们从已知的数据集D出发,经过训练,让机器得到一个好的函数g,利用函数g我们可以对未知的数据进行预测。但是,这种方法真的行的通吗?我们来看一个列子:如下图所示,有三个标签为+1的九宫格,和三个标签为-1的九宫格,根据这6个样本,我们需要判断出g(x)g(x)g(x)的取值是+1还是-1。我们可以认为g(x)g(x)g(x)=+1。因为根据之前的样本,凡是等于+1的样本都是对称的,所以g(x)g(x)g(x)=1,这样来分析好像很有道理。但是,也有人说g(x)

2021-11-07 21:11:35 383

原创 机器学习算法分类

78456899+746

2021-11-03 22:39:22 137

原创 感知机算法:Percetron Learning Algorithm

感知机算法(PLA)主要用于解决线性可分问题。如果给定的数据集是线性可分得,PLA可以找到一条很好的线在高维空间的表现就是超平面,把数据集完美的进行划分。训练完成之后,在给出新的数据,PLA可以很好的预测。用一个简单的列子加以说明,银行决定是否给某人信用卡。银行有客户的一些资料,比如他的年龄,教育程度,工资水平就等等特征信息。我们把这些信息记为向量X。X={年龄,工资,教育程度等等}。是否给他信用卡用y表示,给他信用卡记为+1,不给记为-1。每一个特征都占据不同的比重,比如年龄的影响较小,我们给的比重

2021-11-01 20:42:16 120

原创 机器学习导论

怎样去学习机器学习从理论出发:学到最后可能出现这么一种情况:学了很多东西,不知道怎么使用。从实践出发:只会调用各种包,成为一个调参者从基础出发:大佬推荐的方法,先掌握机器学习的基础内容,然后在进行更加深入的学习。什么时候使用机器学习在回答这个问题之前要先明白什么是机器学习,要想弄明白机器学习要先清楚什么是学习。学习: 简单来讲就是获取技能。怎么样获取呢?通过观察。列如:三岁的小孩子,可以通过观察知道什么是一棵树,还能在下次见到树的时候准确的辨认出来。也就是这么一种关系:观察–>学习

2021-10-30 10:46:18 1548

原创 SQL语句实现增删改查(1)

查询数据根据条件进行检索得到所需要的数据

2021-10-29 19:51:33 229

原创 SQLSever创建表和约束

表的基本概念概念:由数据按一定的顺序和格式构成的数据集合,是数据库的主要对象。每一行代表一个记录,每一列代表一个属性。设计表:创建前考虑如下特征:表中要包含数据类型表中列数,每一列中的数据类型那些列允许空值是否使用以及何时约束那些是主键,那些是外键数据类型Bigint(大整型8字节)int:常用的整型(4字节)smallint:小整型2字节tinyint :微整型(1字节)Bit:位类型,1字节,只能存储0和1decimal(3,2):总位数为3,小数位数为2Datetim

2021-10-25 22:18:09 1817

原创 数据库简单操作

一.SQL语言组成部分数据控制语言(DCL):进行安全管理GRANT: 授权REVOKE: 回收权限(不影响回收用户从其他用户获取权限DENY: 回收权限(功能与REVOKE相似,不同之处在于收回权限以后还禁止从其他用户处申请权限)数据定义语言(DDL):执行数据库任务GREAT:创建数据库或者数据库对象ALTER:对数据库或者数据库对象进行修改DROP:删除数据库或者数据库对象数据操作语言(DML):操作数据库中的对象seclect: 从表或者视图中检索数据insert: 向

2021-10-23 20:09:50 350

原创 数据库基础

1.什么是数据库什么是Sql :结构化查询语言,是专为数据库建立的查询语言数据库构成:数据(Date),数据库(DateBase,简称DB),数据库管理系统(DBMS),数据库系统(DBS)数据:对客观事物的符号表示,如图形,数字,字母等,数据库中的基本对象。在计算机中用记录描述事物。数据库:长期存储在计算机内,有组织,可共享的数据集合。特点:有较小的数据冗余度,较高的数据独立性和易扩展性,可为各个用户共享。DBMS:位于应用程序和数据存储之间的数据管理软件。用途:科学的组织和存储数据,高效的获取

2021-10-23 11:15:33 126

原创 随机变量分析

随机变量

2021-10-21 22:24:46 431

计算机考研指导

里面的内容包含考研大纲,考试形式介绍,考研科目的详细介绍,习题等。是考计算机研究生不可缺少的指南

2018-06-24

深入理解c指针

本书可以帮助读者更好地理解c语言的指针,所讨论的话题有:指针数组、指针函数、指针字符串等内容。

2018-05-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除