机器学习
昱萱
这个作者很懒,什么都没留下…
展开
-
百面机器学习总结--第一章特征工程
Q1:为什么需要对数值类型的特征做归一化A:对数值类型的特征做归一化可以将所有特征都统一到一个大致相同的数值区间内。常用的方法有线形函数归一化(Min-Max Scaling)。它对原始数据进行线形变换,使结果映射到[0,1]的范围,实现对原始数据的等比缩放。Xnorm=X−XmaxXmax−XminX_{norm}=\frac{X-X{max}}{X_{max}-X_{min}}Xnorm=Xmax−XminX−Xmax零均值归一化z=x−uσz=\frac{x-u}{\sigma}z原创 2020-10-24 18:22:20 · 171 阅读 · 0 评论 -
【机器学习】交叉验证和K-折交叉验证cross-validation and k-fold cross-validation
http://www.anc.ed.ac.uk/rbf/intro/node16.htmlIf data is not scarce then the set of available input-output measurements can be divided into two parts - one part for training and one part for testin原创 2016-08-18 19:51:41 · 2090 阅读 · 0 评论 -
【机器学习】如何根据数据集选择适合的模型
Is it because we have many features in our data sheet?因为我们的数据表中有很多特征吗?Or is it because the feature list does not only contain numerical data but categorical data as well?因为我们的特征里不仅包含数值数据还包含累呗数据吗?Or is原创 2016-10-11 15:50:03 · 3961 阅读 · 0 评论 -
【机器学习】可决系数R^2和MSE,MAE,SMSE
https://discussions.youdaxue.com/t/r-2/6582?u=beibei19890724波士顿房价预测首先这个问题非常好其实要完整的回答这个问题很有难度,我也没有找到一个完整叙述这个东西的资料,所以下面主要是结合我自己的理解和一些资料谈一下r^2,mean square error 和 mean absolute error。可能不是很完整,供参转载 2016-08-17 19:44:18 · 21049 阅读 · 0 评论 -
【机器学习】样本方差和标准差
S为样本方差,样本方差除以n-1而不是n,是因为样本可能没有全部反映总体,除以n-1 比除以n的值大一些,从而更准确的接近总体方差。比如总体中有10个颜色的球,而取样本时可能只取了8种如下图,果冻豆的例子原创 2016-08-07 15:47:00 · 2211 阅读 · 1 评论 -
【机器学习】召回率,精确率和准确率
机器学习中经常用到这几个性能指标官方定义:假设原始样本中有两类,其中: 1:总共有 P个类别为1的样本,假设类别1为正例。 2:总共有N个类别为0 的样本,假设类别0为负例。 经过分类后:3:有 TP个类别为1 的样本被系统正确判定为类别1,FN 个类别为1 的样本被系统误判定为类别 0,显然有P=TP+FN; 4:有 FP 个类别为0 的样本被系统误判断定为类原创 2016-08-07 15:34:47 · 7331 阅读 · 2 评论 -
【机器学习】如何成为当下合格的算法工程师
学习方面的问题 Q1:计算机专业本科生,非ACMER。算法达到什么程度才算是合格,有什么量化手段吗? Answer:传统算法和数据结构功底扎实。比如LintCode上的题目简单和中等难度毫无压力做出,Hard难度在给了一定时间和一定提示时可以独立完成。 微积分,统计学,离散数学Q2:成为数据挖掘工程师有必要要搞编程竞赛吗?现在大二,之前没有接触过竞赛 Answer:数据挖掘的话是Kaggle原创 2016-12-21 17:46:24 · 5791 阅读 · 3 评论 -
【机器学习】特征转换,PCA,ICA,RCA,LDA
特征选择其实是特征转换的子集。 PCA: ICA: RCA: LDA:原创 2016-12-21 10:01:40 · 2156 阅读 · 0 评论 -
关于”算法工程师/机器学习工程师”的笔试和面试总结
从16年九月份开始,参加了一些公司的算法工程师/机器学习工程师岗位的校园招聘,做一些总结,希望可以给大家准备这个职位提供些信息。一、需要的基本技能数据结构知识掌握一门编程语言,c/c++/Java/Python 机器学习常用算法或者某一细分领域(推荐,自然语言处理,图像识别,语音识别等)的常用算法二、笔试和面试内容大多是技术笔试然后二到三轮的技术面试技术笔试都是考察基本的计算机知识,概率统原创 2017-09-21 13:39:40 · 19785 阅读 · 4 评论 -
Deepcamp 题目
1.下图显示的机器学习使用的激活函数(Activation function)的图形,是下列哪一个函数的图形?【此题仅一个正确选项】 2、 有关深度学习加速芯片,以下的说法中不正确的是:【此题仅一个正确选项】 (5分) A、GPU既可以做游戏图形加速,也可以做深度学习加速。B、Google TPU已经发展了三代,它们只能用于推断(Inference)计算,不能用于训练(...原创 2018-06-09 12:36:15 · 5187 阅读 · 2 评论 -
机器学习及其数学知识--知识星球
【为什么要加入付费知识星球?】每一条都是精心筛选,用心编辑,为您节约时间邀请了在各个领域比较优秀的朋友做嘉宾+利物浦博士,GDG组织者,+IBM数据科学家,前阿里算法工程师+阿里NLP算法工程师,+美国前十理工院校硕士,实现物理到CS的华丽转身+十年经验的C++资深工程师,方向是计算机视觉,人体姿态【付费知识星球包括哪些内容?】+机器学习中的重点与难点知识讲解+机器学习中的数学...原创 2019-03-22 10:30:48 · 323 阅读 · 0 评论 -
【机器学习】特征缩放
特征缩放公式这个公式的优点是 值较稳定,在【0,1】之间缺点是如果有异常值,特征缩放会很棘手,因为Xmin和Xmax可能是极端值如果Xmin和Xmax相等,分母为0.""" quiz materials for feature scaling clustering """### FYI, the most straightforward implementation原创 2016-11-09 16:23:20 · 2873 阅读 · 0 评论 -
【机器学习】为什么要使用F1衡量分类器的性能
https://discussions.youdaxue.com/t/f1/4638/6?u=beibei19890724 原文链接http://blog.csdn.net/duxinyuhi/article/details/52142721 查全率和查准率参考另一篇文章为什么要使用F1衡量分类器的性能查准率(Precision)与查全率(Recall)以信息转载 2016-09-19 11:27:08 · 8038 阅读 · 0 评论 -
【机器学习】Naive Bayes 朴素贝叶斯
1.基本原理和步骤Naive Bayes methods are a set of supervised learning algorithms based on applying Bayes’ theorem with the “naive” assumption of independence between every pair of features. Given a clas原创 2016-10-10 17:08:07 · 1890 阅读 · 0 评论 -
【机器学习】特征的相关性和有用性
特征的相关性,相关性是提供信息。有用性用来减少偏差 B.O.C是bayes最优分类器原创 2016-12-02 15:57:00 · 4156 阅读 · 1 评论 -
【机器学习】PCA与ICA,RCA,LDA
PCA主成分分析 图一:本来是两个维度的值,一个维度是school ranking ,一个是safety problems, 观察图中的点,可以用一个直线连起来,这个直线就是新的主分成的方向,也是方差最大的方向。两个维度合成了一个新的纬neighborhood quality 损失的信息量是点到红色直线的距离 PCA最大方差的方向 何时使用PCA 1.潜在的特征 2.维度约减(可视化原创 2016-12-06 10:44:24 · 6561 阅读 · 0 评论 -
【机器学习】监督和非监督学习
监督学习:给定一组(x , y),求出f 非监督学习:给定一组x,求出描述x的f 增强学习:原创 2016-12-13 14:24:35 · 462 阅读 · 0 评论 -
【机器学习】K-means和GMM
You can also read more on the differences of the methods, and how they are related. (KMeans can be seen as a special case of GMM that has equal covariance per cluster).原创 2016-12-07 19:42:28 · 1009 阅读 · 0 评论 -
【机器学习】p3客户细分中的参考资料skewed distribution
http://www.mathsisfun.com/data/skewness.htmlseaborn.heatmap使用 http://seaborn.pydata.org/generated/seaborn.heatmap.html原创 2016-12-07 19:56:28 · 1313 阅读 · 0 评论 -
【机器学习】决策树的优缺点
一:决策树的缺点1.如果你的边界很光滑动,决策树不会很好用。也就是说当你有不连续的实例时,决策树才表现最好。2. 如果有很多不相关的变量,决策树表现的不好。决策树的工作是通过找到变量间的相互作用。3. 数据框架:树的每次分裂都减少了数据集。有意地创造分裂将会潜在地引进偏差(bias)4. 高方差和不稳定性:运用贪婪策略到决策树方差,找到树的正确的开始点会原创 2016-10-11 12:08:28 · 10882 阅读 · 0 评论 -
【机器学习】非监督算法
1.k-meansk-means 是所谓的爬山演算法,它非常依赖于你的初始集群中心所处的位置2. SLC SLC単连锁聚类,有点像最小生成树把图中黑色的点分成两簇3.软聚类 soft clustering依赖概率论4.EM算法Em可以类比成k-means过程,即EM算法是软聚类,开始时属于一个簇的概率很高比如0.999996,但属原创 2016-11-08 22:42:08 · 1485 阅读 · 0 评论 -
【机器学习】特征选择与特征转换
1.curse of dimension 维度灾难特征的个数增多时,对数据的需求也会以指数速度增长。2.特征的过滤(filtering)和封装(wrapping)特征的过滤是选择特征后,再执行算法。缺点是缺少反馈。用时较少。可以用决策树选出重要特征(分裂的地方),再进行算法封装是在算法中选择特征,真正关注的学习问题本身。用时较多。原创 2016-11-09 21:48:30 · 3113 阅读 · 0 评论 -
【机器学习】bias and variance
http://scott.fortmann-roe.com/docs/BiasVariance.htmlbias-variance tradeoff.High bias means that the model is too simple to capture the relationship of the features and target. A high bias mode原创 2016-08-18 20:13:45 · 842 阅读 · 0 评论 -
【转】机器学习算法比较
本文主要回顾下几个常用算法的适应场景及其优缺点!(提示:部分内容摘自网络)。机器学习算法太多了,分类、回归、聚类、推荐、图像识别领域等等,要想找到一个合适算法真的不容易,所以在实际应用中,我们一般都是采用启发式学习方式来实验。通常最开始我们都会选择大家普遍认同的算法,诸如SVM,GBDT,Adaboost,现在深度学习很火热,神经网络也是一个不错的选择。假如你在乎精度(accuracy转载 2016-09-19 12:05:18 · 677 阅读 · 0 评论