机器学习 基础 学习笔记
文章平均质量分 83
复习数学基础、数据处理基础等,结合该大佬的GitHub仓库的知识点,还有网上的一些知识点,还有老师的一些课堂笔记、PPT,还有我的一些理解在里面。
欢迎加入一起学习,也可以私聊我发你写的文章投稿分享给更多的人。(没有稿费的,但是会著名是你分享的笔记)
Tony Einstein
人生苦短,我用Python。记录生活,记录成长,天道酬勤,佛系更新。
做一个会思考、会解决问题的思考者!希望得到你的关注、点赞、收藏!
展开
-
机器学习-基础
1.什么是机器学习模型?机器学习的目标是找出一个尽可能通用的函数,这个函数要尽可能对不可见数据给出正确的答案。机器学习模型(machine learning model)是机器学习算法产出的结果,可以将其看作是在给定输入情况下、输出一定结果的函数F(function) 。机器学习模型不是预先定义好的固定函数,而是从历史数据中推导出来的。因此,当输入不同的数据时,机器学习算法的输出会发生变化,即机器学习模型发生改变。机器学习算法是揭示数据中潜在关系的过程。2.有监督与无监督、半监督学习(1)有监督学习转载 2022-01-26 15:30:52 · 414 阅读 · 0 评论 -
机器学习 基础理论 学习笔记 (8)特征选择(feature selection)(一)
1.特征工程特征选择是特征工程里的一个重要问题,其目标是寻找最优特征子集。特征选择能剔除不相关(irrelevant)或冗余(redundant )的特征,从而达到减少特征个数,提高模型精确度,减少运行时间的目的。另一方面,选取出真正相关的特征简化模型,协助理解数据产生的过程。并且常能听到“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已”,由此可见其重要性。但是它几乎很少出现于机器学习书本里面的某一章。然而在机器学习方面的成功很大程度上在于如果使用特征工程。考虑特征选择,是因为机器学习原创 2021-12-28 14:28:13 · 10280 阅读 · 5 评论 -
机器学习 基础理论 学习笔记 (7)不平衡数据的改善
1.数据不平衡数据不平衡也可称作数据倾斜。在实际应用中,数据集的样本特别是分类问题上,不同标签的样本比例很可能是不均衡的。因此,如果直接使用算法训练进行分类,训练效果可能会很差(例如,某个标签的样本比较多,那么由于该样本数量多,评估方法或者损失函数的结果更倾向于该类标签)。解决实际应用中数据不平衡问题可以从三个方面入手,分别是对数据进行处理、选择合适的评估方法和使用合适的算法。2.数据不平衡的解决方法(1)数据采样采样方法是通过对训练集进行处理使其从不平衡的数据集变成平衡的数据集,在大部分情况下会原创 2021-12-18 16:22:50 · 4133 阅读 · 0 评论 -
机器学习 基础理论 学习笔记 (6)异常值检测和处理
1.异常值定义异常值是指样本中的个别值,其数值明显偏离它所属样本集的其余观测值。异常值分析是检验数据是否有录入错误以及含有不合常理的数据。忽视异常值的存在是十分危险的,不加剔除地把异常值包括进数据的计算分析过程中,对结果会产生不良影响;重视异常值的出现,分析其产生的原因,常常成为发现问题进而改进决策的契机。异常值也称为离群点,异常值的分析也称为离群点分析。2.异常值检测方法(1)描述性统计和可视化寻找就是简单的画图看数据,计算方差、标准差查看数据的波动程度,另外查看均值大小、众数、最大值最小值、分原创 2021-12-15 17:04:17 · 6576 阅读 · 0 评论 -
机器学习 基础理论 学习笔记 (5)缺失值处理
1.缺失值产生的原因失值的产生的原因多种多样,主要分为机械原因和人为原因。机械原因是由于机械原因导致的数据收集或保存的失败造成的数据缺失,比如数据存储的失败,存储器损坏,机械故障导致某段时间数据未能收集(对于定时数据采集而言)。人为原因是由于人的主观失误、历史局限或有意隐瞒造成的数据缺失,比如,在市场调查中被访人拒绝透露相关问题的答案,或者回答的问题是无效的,数据录入人员失误漏录了数据。2.缺失值的类型缺失值从缺失的分布来讲可以分为完全随机缺失,随机缺失和完全非随机缺失。完全随机缺失(missin原创 2021-12-15 15:12:05 · 2310 阅读 · 0 评论 -
机器学习 基础理论 学习笔记 (4)AutoML知识
1.什么是AutoML?自动机器学习(AutoML)是将机器学习应用于现实问题的端到端流程自动化的过程。传统机器学习模型大致可分为以下四个部分:数据采集、数据预处理、优化、应用;其中数据预处理与模型优化部分往往需要具备专业知识的数据科学家来完成,他们建立起了数据到计算的桥梁。然而,即使是数据科学家,也需要花费大量的精力来进行算法与模型的选择。机器学习在各种应用中的成功,为了让尽可能多的工作也能够被自动化完成,AutoML应运而生。从传统机器学习模型出发,AutoML从特征工程、模型构建、超参优化三原创 2021-12-15 11:22:28 · 858 阅读 · 0 评论 -
机器学习 基础理论 学习笔记 (3)生成模型和判别模型
1.生成模型与判别模型(1)判别模型别方法由数据直接学习决策函数 f(x) 或者条件概率分布 P(y|x) 作为预测的模型,即判别模型。判别方法关心的是对给定输入 x,应该预测什么样的输出 y。比如说要确定一朵花是玫瑰花还是荷花,用判别模型的方法是先从历史数据中学习到模型,然后通过提取这朵花的特征来预测出这花是玫瑰花的概率大一点,还是荷花的概率大一点。(2)生成模型生成方法由数据学习输入和输出联合概率分布 P(x|y) ,然后求出后验概率分布 P(y|x) 作为预测的模型,即生成模型。其实就是原创 2021-12-15 10:14:14 · 1404 阅读 · 0 评论 -
机器学习 基础理论 学习笔记 (2)频率概率估计
1.似然函数2.极大似然估计 - MLE简述MLE含义:利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值。MLE原理:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。换句话说,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。参考https://github.com/sladesha/Reflection_Summaryhttps://zhuanlan.zhihu.com/p/26614750...原创 2021-12-15 09:46:51 · 765 阅读 · 0 评论 -
机器学习 基础理论 学习笔记 (1)方差与偏差
1.解释方差期望值与真实值之间的波动程度,衡量的是稳定性。2.解释偏差期望值与真实值之间的一致差距,衡量的是准确性。3.方差和偏差的理解优化监督学习=优化模型的泛化误差,模型的泛化误差可分解为偏差、方差与噪声之和。即:Err = bias + var + irreducible error以回归任务为例,其实更准确的公式为:Err = bias² + var + irreducible error²符号的定义:一个真实的任务可以理解为Y=f(x)+e,其中f(x)为规律部分,e为噪声部分(原创 2021-12-14 16:58:44 · 1017 阅读 · 0 评论 -
机器学习 数学基础 学习笔记 (5)常见统计量
1.期望离散型随机变量的一切可能的取值xi与对应的概率Pi(=xi)之积的和称为该离散型随机变量的数学期望(设级数绝对收敛),记为 E(x)。随机变量最基本的数学特征之一。它反映随机变量平均取值的大小。又称期望或均值。若随机变量X的分布函数F(x)可表示成一个非负可积函数f(x)的积分,则称X为连续性随机变量,f(x)称为X的概率密度函数(分布密度函数)。E(ax+by+c) = aE(x)+bE(y)+c如果x和y独立,E(xy)=E(x)E(y)2.方差方差是各个数据与平均数之差的平方的原创 2021-12-14 14:57:27 · 314 阅读 · 0 评论 -
机器学习 数学基础 学习笔记 (4)零碎知识点归纳【持续更新】
1.最大公约数问题最大公因数,也称最大公约数、最大公因子,指两个或多个整数共有约数中最大的一个。求最大公约数有多种方法,常见的有质因数分解法、短除法、辗转相除法、更相减损法。辗转相除法:def solve(a,b): return a if b==0 else solve(b,a%b)2.平面曲线的切线和法线(1)切线方程(2)法线方程3. 欧拉公式复变函数中,e^(ix)=(cos x+isin x)称为欧拉公式,e是自然对数的底,i是虚数单位。拓扑学中,在任何一个规则球原创 2021-12-14 14:46:54 · 462 阅读 · 0 评论 -
机器学习 数学基础 学习笔记 (3)概率论
1.概率概率,亦称“或然率”,它是反映随机事件出现的可能性大小。随机事件是指在相同条件下,可能出现也可能不出现的事件。例如,从一批有正品和次品的商品中,随意抽取一件,“抽得的是正品”就是一个随机事件。设对某一随机现象进行了n次试验与观察,其中A事件出现了m次,即其出现的频率为m/n。经过大量反复试验,常有m/n越来越接近于某个确定的常数(此论断证明详见伯努利大数定律)。2.条件概率条件概率是指事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为:P(A|B),读作“在B的条件下A的概率”。条原创 2021-12-14 11:18:43 · 995 阅读 · 0 评论 -
机器学习 数学基础 学习笔记 (2)矩阵
1.矩阵在数学中,矩阵(Matrix)是一个按照长方阵列排列的复数或实数集合。定义:由 m × n 个数aij 排成的m行n列的数表称为m行n列的矩阵,简称m × n矩阵。记作:这m×n 个数称为矩阵A的元素,简称为元,数aij位于矩阵A的第i行第j列,称为矩阵A的(i,j)元,以数 aij为(i,j)元的矩阵可记为(aij)或(aij)m × n,m×n矩阵A也记作Amn。元素是实数的矩阵称为实矩阵,元素是复数的矩阵称为复矩阵。而行数与列数都等于n的矩阵称为n阶矩阵或n阶方阵。2.矩阵的基本原创 2021-12-13 17:33:32 · 818 阅读 · 0 评论 -
机器学习 数学基础 学习笔记 导论
写这个专栏的目的写这个专栏的目的不是为了盈利,只是为了学习和分享,回顾大学学习数学的内容,复习基础知识提高自己的学习能力。学习地址:https://github.com/sladesha/Reflection_Summary感谢这位大佬分享了这个仓库,把重要知识点提炼出来,一目了然,正好书籍也不在身边,正好好好复习一波。专栏的内容基本上就是复习数学基础,结合该大佬的GitHub仓库的知识点,还有网上的一些知识点,还有老师的一些课堂笔记、PPT,还有我的一些理解在里面。...原创 2021-12-13 15:14:08 · 293 阅读 · 0 评论 -
机器学习 数学基础 学习笔记 (1) 导数
1.导数概念导数(Derivative),也叫导函数值。又名微商,是微积分中的重要基础概念。当函数y=f(x)的自变量x在一点x0上产生一个增量Δx时,函数输出值的增量Δy与自变量增量Δx的比值在Δx趋于0时的极限a如果存在,a即为在x0处的导数,记作f’(x0)或df(x0)/dx。导数是函数的局部性质。一个函数在某一点的导数描述了这个函数在这一点附近的变化率。如果函数的自变量和取值都是实数的话,函数在某一点的导数就是该函数所代表的曲线在这一点上的切线斜率。导数的本质是通过极限的概念对函数进行局部的线原创 2021-12-13 15:01:31 · 417 阅读 · 0 评论