机器学习、数据挖掘、算法岗位面试题库、面经

DS/ML类面试在本质上大同小异,只是侧重点不同。DS/ML与传统的软件开发岗和数据工程岗位在面试中最大的区别就是,DS/ML更多涉及机器学习、概率统计、数值优化、高数线代、AB Test等多方面的知识。 机器学习、数据挖掘、算法岗位面试题库、面经(SofaSofa数据科学社区整理,包括BAT以...

2018-12-19 11:07:28

阅读数 76

评论数 0

K-Means算法、非负矩阵分解(NMF)与图像压缩(Python)

K-Means算法是最基础的聚类算法、也是最常用的机器学习算法之一。 本教程中,我们利用K-Means对图像中的像素点进行聚类,然后用每个像素所在的簇的中心点来代替每个像素的真实值,从而达到图像压缩的目的。 非负矩阵分解(Non-negative Matrix Factorization, NM...

2018-10-03 12:16:31

阅读数 264

评论数 0

谷歌内部机器学习术语表

本术语表中列出了一般的机器学习术语和 TensorFlow 专用术语的定义。 完整版请点击这里机器学习术语词典。 A A/B 测试 (A/B testing)   一种统计方法,用于将两种或多种技术进行比较,通常是将当前采用的技术与新技术进行比较。A/B 测试不仅旨在确定哪种技术的效...

2018-09-14 12:34:07

阅读数 95

评论数 0

机器学习中关于“调参”的种种问题

参数与超参的区别是什么?调参中的GridSearch是什么意思?xgboost怎么调参?利用交叉验证调参后还需要用完整的数据集重新训练吗?随机森林如何调参?glmnet中的参数lambda.min.ratio什么意思...

2018-07-16 09:38:07

阅读数 254

评论数 0

【形状识别:是方还是圆】CNN还是逻辑回归?

SofaSofa的练习项目【形状识别:是方还是圆】,主要针对于数据新人、尤其图像处理、识别方面的新手进行自我练习、自我提高,与大家切磋。在同学们的催促下,我们终于上传了标杆模型。标杆模型1:逻辑回归模型模型2:基于keras的CNN完整代码点击这里。由于这次项目非常简单,大家得到100%的准确率的...

2018-06-01 13:45:39

阅读数 326

评论数 0

关于numpy的种种

python numpy里array和matrix的区别?二维numpy.array转为一维的numpy.array或者list怎么对2维的numpy array取整?numpy里矩阵乘法matmul,@和dot的区别?sklearn算法里输入的数据集是要求pandas.DataFrame还是nu...

2018-05-21 12:15:52

阅读数 86

评论数 0

【数据实战】足球运动员身价估计

本次数据项目的主题是足球运动员身价估计。每个足球运动员在转会市场都有各自的价码。本次数据练习的目的是根据球员的各项信息和能力值来预测该球员的市场价值。 标杆模型提供了两个思路:第一个是找到很少数的几个关键特征然后训练模型,比如四个变量的决策树模型(Python),这个模型的MAE为39.03。第二...

2018-05-12 22:43:18

阅读数 630

评论数 0

关于过拟合的种种问题

为什么过拟合不好?无监督式学习也会过拟合吗?决策树模型有什么特点以及如何防止过拟合?无监督学习(比如K Means)里怎么加正则项来防止过拟合随机森林会发生过拟合(overfitting)吗?训练集加入噪声防止over fitting还是加剧overfitting?机器学习算法的鲁棒性是什么意思?...

2018-05-10 10:01:11

阅读数 84

评论数 0

利用朴素贝叶斯对名字进行性别预测

朴素贝叶斯一直是文本分类的“好手”,不妨来看看怎么用它来判断名字的性别。请点击阅读利用朴素贝叶斯对名字进行性别预测。

2018-03-26 08:02:43

阅读数 1012

评论数 0

关于机器学习、数据科学面试的准备

最近很多人私信小编,问起“机器学习”“数据科学”这一类岗位面试如何准备的问题。小编是很乐于和大家分享的,但是,前提是你真心想走这条路的。有些同学问,“您好,我想转行,做机器学习这块,我该怎么准备面试呢?”小编也竟然无语凝噎,因为您的问题更像是“我想转行,我该从哪里开始、我该学些什么?”。这篇分享不...

2018-02-17 15:34:45

阅读数 175

评论数 0

关于xgboost,你需要知道的问题

xgboost是怎么做到regularization的?xgboost中的决策树的复杂度是怎么定义的?对于xgboost,还需要做很多特征工程吗xgboost如何调参xgboost能够做回归预测吗xgboost那么好,那线性模型还有价值吗?xgboost中的gblinear是什么意思xgboost...

2017-12-08 12:06:28

阅读数 687

评论数 0

机器学习之中文处理:文言文还是白话文

机器读中文2:“辨古识今”比赛概述本比赛为个人练习赛,主要针对于数据新人、尤其中文文本处理方面的新手进行自我练习、自我提高,与大家切磋。 练习赛时限:2017-11-01 至 2019-11-01 任务类型:自然语言处理、二元分类 背景介绍: 本次练习赛是“机器读中文”系列的第二期(第一期为机...

2017-11-27 11:21:35

阅读数 797

评论数 0

关于PCA的那些事

PCA是机器学习中常用的方法、也是个经常被提及的术语。关于PCA的那些事,你不得不知。 为什么PCA被称作非监督式学习? 在使用PCA降维时,有哪些坑? PCA的目标函数是什么? PCA降维之前为什么要先标准化或者归一化? 利用PCA降维,降到几维比较合适? PCA和SV...

2017-11-10 12:57:24

阅读数 407

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭