![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
百面机器学习
hr_net
这个作者很懒,什么都没留下…
展开
-
百面机器学习|学习笔记|第一章特征工程
本集合主要针对《百面机器学习——算法工程师带你去面试》这本书。主要记录笔者认为重要的知识点,希望对大家有帮助。本章知识疏导:1.特征归一化目的:消除数据特征之间的量纲影响,使得不同指标之间具有可比性。 常用方法有线性函数归一化和零均值归一化:线性函数归一化(Min-Max Scaling,最大最小值归一化),将数据映射到的范围内。 零均值归一化(Z-Score Norm...原创 2019-03-05 22:07:51 · 202 阅读 · 0 评论 -
python深/浅拷贝
import copya=[1,2,3,[4,5]]b=copy.deepcopy(a) #深拷贝:拷贝父对象及其子对象,两者完全独立;c=copy.copy(a)#浅拷贝:仅拷贝父对象,拷贝后的子对象与原子对象指向同一对象。解析1、b = a:赋值引用,a 和 b 都指向同一个对象。2、b = a.copy():浅拷贝, a 和 b 是一个独立的对象,但他们的子...原创 2019-08-29 16:36:19 · 82 阅读 · 0 评论 -
特征工程
特征工程是什么? 有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。特征工程包括:①数据预处理:无量纲化(归一化、标准化),二值化,特征编码,缺失值处理,数据变换,等②特征选择:filter(过滤方差小的特征,剔除样本和标签相...原创 2019-08-12 16:48:40 · 103 阅读 · 0 评论 -
svm小样本模式
SVM三大特性:小样本,非线性,高维模式非线性我们知道,SVM通过核函数与松弛变量实现;高维模式可通过仅用支持向量计算来实现(KNN不可);小样本:不带核函数的支持向量机(线性)在一定条件下是适合大量数据的,但是带核函数的支持向量机(非线性)在处理大量数据的时候会非常慢,并不适合。下面根据特征维数和样本数对模型与SVM的核函数进行选择时体现了这一点:n 为特征数,m 为训练样本数。 ...原创 2019-08-06 11:43:19 · 5696 阅读 · 0 评论 -
为什么梯度反方向是函数值局部下降最快的方向?
0. 梯度与导数梯度:矢量,方向指向数值增长最快的方向,大小为变化率。导数:常量,两者应该有本质的区别,而导数的正负也反映了函数值的大小变化,而不是一直指向数值增大的方向。其实一元函数肯定也有梯度,我们经常不提及的原因其实很简单:一元函数的梯度方向沿着x方向!而导数值的正负号决定了这个方向是正方向还是反方向。如图所示,A点右"领域"的导数为正值,则梯度的方向跟x轴正方向一致,梯度方...原创 2019-07-16 11:42:24 · 627 阅读 · 0 评论 -
进程与线程
首先介绍从属关系,一个程序至少有一个进程,一个进程可以包含多个线程。多个线程并行计算是针对同一个内存而言。进程拥有自己独立的地址空间,线程没有,多线程共享内存单元。线程崩溃后整个程序die,所以多进程比多线程健壮。从逻辑角度来看,多线程的意义在于一个应用程序中,有多个执行部分可以同时执行。但操作系统并没有将多个线程看做多个独立的应用,来实现进程的调度和管理以及资源分配。线程和进程的关系...原创 2019-07-05 17:00:50 · 137 阅读 · 0 评论 -
机器学习模型融合方法概述
参考知乎https://zhuanlan.zhihu.com/p/25836678Kaggle比赛中提高成绩主要有3个地方特征工程 调参 模型融合0. 简单的融合方法:Voting and Averaging一般来讲,对于分类问题最简单的融合方法是投票;对于回归问题则是加权平均。bagging and boosting揭示基于此原理。1. bagging降低方差,减少...原创 2019-07-10 19:12:08 · 956 阅读 · 0 评论 -
判别式模型 vs. 生成式模型
本文介绍机器学习中的生成模型与判别模型生成式模型(generadtive model)会对的联合分布进行建模,然后通过贝叶斯公式求得条件概率(在x发生的条件下y发生的概率),最后选择使得取得最大的。一般来说,生成式模型都会对数据的分布做一定的假设,比如朴素贝叶斯会假设在给定的条件下各个特征之间是条件独立的。当数据满足这些假设时,生成式模型通常需要较少的数据就能取得不错的效果,但是当这些...原创 2019-06-17 10:36:10 · 377 阅读 · 0 评论 -
从EM算法理解k-means与GMM的关系
EM(期望最大化)算法解决的是在概率模型中含有无法观测的隐含变量情况下的参数估计问题,EM算法只保证收敛到局部最优解。EM算法是在最大化目标函数时, 先固定一个变量使整体函数变为凸优化函数, 求导得到最值, 然后利用最优参数更新被固定的变量, 进入下一个循环。k-means:E过程,根据固定的各个簇的中心点,对每个样本就近分配所属的簇;M过程,根据样本划分好的簇,重新计算簇的中心点,更新E过...原创 2019-06-20 15:25:09 · 2413 阅读 · 0 评论 -
《sklearn机器学习第二版》(加文海克著)学习笔记
本书附以sklearn机器学习示例程序,从调用函数的角度解释了常用的机器学习的方法,包括线性回归、逻辑回归、决策树、SVM、朴素贝叶斯、ANN、K-means、PCA。原理粗浅易懂,注重代码实践。本文作为该书的阅读笔记,仅供参考。第一章:机器学习基础0.机器学习:监督学习(分类、回归)、无监督学习(聚类、降维)、半监督学习、强化学习其中无监督学习尝试在数据中发现模式或规律;强化学习...原创 2019-06-19 15:21:20 · 1198 阅读 · 0 评论 -
《算法图解》学习笔记
本文记录学习《算法图解》过程中的一些知识点,作为个人笔记。《算法图解》个人笔记第一章:算法简介0. 算法复杂度指的是随着输入size的操作数的增速,而非秒。第二章:选择排序0. python中数组的存储是顺序的,访问方便,支持随机访问,插入删除麻烦;链表是非顺序的,插入删除方便,访问不方便。第三章:递归0. 递归:基线条件(边界)+递归条件1. 栈...原创 2019-05-29 17:15:10 · 369 阅读 · 0 评论 -
max(X,Y),min(X,Y)的期望
核心是去max和min符号:举个应用的例子:原创 2019-04-09 10:50:04 · 15232 阅读 · 2 评论 -
百面机器学习|学习笔记|第六章概率图模型
原创 2019-03-22 16:46:20 · 128 阅读 · 0 评论 -
百面机器学习|学习笔记|第十二章集成学习
注意: bagging中需要降低方差,那么基本分类器选取不稳定(高方差)分类器如决策树、CNN等。由于最后由投票法进行最终决断,需要保证分类器之间没有强的相关性,否则投票的结果没有意义。那么在bagging中,如随机森林,每颗决策树的输入样本之间弱重合或无重合。 若基分类器之间存在强相关性,需要采用boosting。...原创 2019-03-24 21:25:09 · 88 阅读 · 0 评论 -
百面机器学习|学习笔记|第五章无监督学习
原创 2019-03-21 15:23:04 · 117 阅读 · 0 评论 -
百面机器学习|学习笔记|第四章降维
上传本章知识图,以供自己回忆。具体解释请自行查阅 《百面机器学习》原创 2019-03-20 17:25:33 · 160 阅读 · 0 评论 -
手推SVM
原创 2019-03-11 23:07:40 · 701 阅读 · 0 评论 -
百面机器学习|学习笔记|第二章模型评估
1.评价指标1. F1值和ROC曲线也能综合反映一个排序模型的性能。ROC曲线后面一节再说,F1值是精确率和召回率的调和均值。2. 均方根误差RMSE(Root Mean Square Error)通常用来衡量回归模型的好坏,但是如果存在个别偏离程度特别大的离群点(Outlier),即使离群点非常少,也会让RMSE指标变的很差。例如在流量预测问题中,噪声点是很容易产生的,甚至一些相关社...原创 2019-03-05 22:37:03 · 327 阅读 · 0 评论 -
海量数据去重
法一:hash,通过哈希映射构建原始数据与hash值之间的关系。若哈希值相同则存在相同的数据,剔除即可。缺点:需要存储该数据与映射关系。法二:bitmap,位图法,对于去重的问题,我们只需要标记该数据有没有出现过,并不需要去存储该数据。从这方面入手,便有了bitmap。这里我们假设待处理的数据是int型数据,占32位。则数值区间为2^32,一共需要2^32位来标识所有的数值,那么我们只需要含...原创 2019-09-10 23:17:42 · 1442 阅读 · 0 评论