SSShino-CSDN博客

翻译 machine learning yearning 11 and 12

11.什么时候改变开发/测试集和度量当开始一个新的工程，我试着快速选择开发/测试集，因为这会给团队一个明确的目标。我通常要求团队在少于一周的时间内拿出一个初始的开发/测试集和一个初始的度量。想出不完美的东西然后快速开始工作比过度思考更加重要。但是这一周的时间线不适用于成熟的应用。例如，反骚扰系统是一个成熟的深度学习应用。我看到过团队花了几个月的时间在成熟的系统上去获得更好的开发/测试集。如果

2017-12-20 21:08:37 104

翻译 machine learning yearning 9 and 10

9 优化指标和满足指标有种结合多评估指标的新方法。假如你同时关心一个学习算法的准确率和运行时间。你需要从下面3个分类器选择：通过将准确度和运行时间放在一个公式得到一个单评估值看上去不自然，例如： Accuracy - 0.5*RunningTime 现在有个替代的方法：首先定义一个可以”接受“的运行时间。我们假设100ms以内的运行时间都是可以接受的。然后根据这个运行时间最大化准

2017-12-19 21:31:20 106

翻译 machine learning yearning 7 and 8

machine learning yearning 7.开发集测试集大小设置开发集的大小应该足够检测出你尝试不同算法之间的差异。例如。如果分类器A有90%的精度，B有90.1%的精度，则100个样本的开发集不足以检测出两个分类器的精度。通常情况下开发集有着1000到10000的样本。有着一万的样本，能够检测出0.1%的提升。对于成熟且重要的应用，有的团队需要0.01%精度的提升，因为其对公

2017-12-19 20:56:24 99

翻译 machine learning yearning 5-6

5.开发集和测试集大数据时代以前，机器学习的常用规则是用70%/30%来分割训练集和测试集。当训练集的分布与你最终想要的数据分布不一样的时候，这种区分规则就不适用了。所以通常定义：训练集：在上面跑算法开发集（dev set）：用于调整算法的参数，特征等决策。有时称作交叉验证集。测试集：评估算法的性能，但不对算法或参数做任何决定。换句话说，开发集和测试集的

2017-12-19 17:22:18 103

转载 40 Interview Questions asked at Startups in Machine Learning / Data Science

Q1.1000列1百万行的数据集，用于分类问题。电脑内存有限，如何降维减少计算时间？Ans：1. 由于内存有限，关闭机器上的其他应用，包括浏览器，这样最多的内存可以用于计算。 2. 随机采样数据集。从已知数据集中随机抽样。 3. 降维。将数值量和类别量（catagorical）分开并删除相关量。对于数值量我们计算关联关系，对于类别变量进行卡方检验。

2017-11-18 17:58:11 231

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人