- 博客(4)
- 资源 (2)
- 收藏
- 关注
原创 [机器学习] :到底需要多少数据?理论分析来告诉你
1. 前言机器学习中最值得问的一个问题是,到底需要多少数据才可以得到一个较好的模型?从理论角度,有Probably approximately correct (PAC) learning theory来描述在何种情况下,可以得到一个近似正确的模型。但从实用角度看,PAC的使用范围还是比较局限的。所以今天我们主要想讨论一个问题:到底如何定义有效数据量。2.数据的粒度数据的粒度可...
2018-08-27 08:22:18 3905
原创 如何解决数据不平衡问题
1.前言这几年来,机器学习和数据挖掘非常火热,它们逐渐为世界带来实际价值。与此同时,越来越多的机器学习算法从学术界走向工业界,而在这个过程中会有很多困难。数据不平衡问题虽然不是最难的,但绝对是最重要的问题之一。2. 数据不平衡在学术研究与教学中,很多算法都有一个基本假设,那就是数据分布是均匀的。当我们把这些算法直接应用于实际数据时,大多数情况下都无法取得理想的结果。因为实际数据往往...
2018-08-20 11:05:10 10721
原创 Bagging和Boosting 概念及区别
1.前言Bagging和Boosting都是将已有的分类或回归算法通过一定方式组合起来,形成一个性能更加强大的分类器,更准确的说这是一种分类算法的组装方法。即将弱分类器组装成强分类器的方法。 首先介绍Bootstraping,即自助法:它是一种有放回的抽样方法(可能抽到重复的样本)。2. Bagging(bootstrap aggregating)Bagging即套袋法,其算法过...
2018-08-19 19:43:40 192
原创 神经网络故障排查
1.前言这里结合了我们的经验以及网上提供的一些资源,总结了在定位卷积神经网络系统问题时的一些方法。我们主要聚焦在利用深度神经网络实现的有监督学习。这里的实现默认是Python3.6 Tensorflow(TF)。假设我们利用一个卷积神经网络来训练模型,然后评估的结果达不到我们的预期。下面的步骤将是定位问题和逐步提升我们模型的方法思想。首先先总结下在开始故障排除之前必须要做的事情。这些故障问...
2018-08-17 11:14:46 1612 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人