suibianxiexie
文章平均质量分 68
SSShino
这个作者很懒,什么都没留下…
展开
-
40 Interview Questions asked at Startups in Machine Learning / Data Science
Q1.1000列1百万行的数据集,用于分类问题。电脑内存有限,如何降维减少计算时间? Ans:1. 由于内存有限,关闭机器上的其他应用,包括浏览器,这样最多的内存可以用于计算。 2. 随机采样数据集。从已知数据集中随机抽样。 3. 降维。将数值量和类别量(catagorical)分开并删除相关量。对于数值量我们计算关联关系,对于类别变量进行卡方检验。转载 2017-11-18 17:58:11 · 237 阅读 · 0 评论 -
machine learning yearning 7 and 8
machine learning yearning 7.开发集测试集大小设置 开发集的大小应该足够检测出你尝试不同算法之间的差异。例如。如果分类器A有90%的精度,B有90.1%的精度,则100个样本的开发集不足以检测出两个分类器的精度。通常情况下开发集有着1000到10000的样本。有着一万的样本,能够检测出0.1%的提升。 对于成熟且重要的应用,有的团队需要0.01%精度的提升,因为其对公翻译 2017-12-19 20:56:24 · 103 阅读 · 0 评论 -
machine learning yearning 9 and 10
9 优化指标和满足指标 有种结合多评估指标的新方法。 假如你同时关心一个学习算法的准确率和运行时间。你需要从下面3个分类器选择: 通过将准确度和运行时间放在一个公式得到一个单评估值看上去不自然,例如: Accuracy - 0.5*RunningTime 现在有个替代的方法:首先定义一个可以”接受“的运行时间。我们假设100ms以内的运行时间都是可以接受的。然后根据这个运行时间最大化准翻译 2017-12-19 21:31:20 · 112 阅读 · 0 评论 -
machine learning yearning 11 and 12
11.什么时候改变开发/测试集和度量当开始一个新的工程,我试着快速选择开发/测试集,因为这会给团队一个明确的目标。 我通常要求团队在少于一周的时间内拿出一个初始的开发/测试集和一个初始的度量。想出不完美的东西然后快速开始工作比过度思考更加重要。但是这一周的时间线不适用于成熟的应用。例如,反骚扰系统是一个成熟的深度学习应用。我看到过团队花了几个月的时间在成熟的系统上去获得更好的开发/测试集。 如果翻译 2017-12-20 21:08:37 · 107 阅读 · 0 评论