![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
碳酸何
这个作者很懒,什么都没留下…
展开
-
第一章机器学习基础
1.1何为机器学习将无序的信息转化成有序的可用的信息。现实生活中许多无法建立精确的数学模型,需要基于统计学的工具进行求解。1.2关键的术语特征:可以是十进制的数字(身高,体重),二值型(0或1),自定义调色板的枚举类型(红,黄,篮),目标变量:也被称为类别(在分类问题中),是机器学习的输出结果1.3机器学习的任务回归:预测数值型数据分类:将实例数据划分到具体的分类中。...原创 2018-11-16 14:21:43 · 88 阅读 · 0 评论 -
机器学习--南京--找一起学习的朋友
鄙人南航大四,将在原校继续读研,并且方向于机器学习相关,现在希望找一些同在南京并且也对机器学习方向感兴趣的同学。鄙人主要的目的还是交一些可以相互学习的朋友,可以一起讨论学术知识,或者对人工智能行业的探讨,可以一起组队参加一些赛事或者创新创业项目。有意可留言。...原创 2018-11-16 14:38:52 · 221 阅读 · 2 评论 -
样本空间的离散化
代码参考出处https://blog.csdn.net/HackerTom/article/details/78597630看了以上代码,对离散化部分作一小结。需要的三个主要的特征空间:samspc(样本 空间),dsc(离散化的空间),ver(反离散化空间),以及过度的数据集bufbuf:他是vector<vector<string>>,是真正输入时候的(n-...原创 2018-11-21 19:48:54 · 1730 阅读 · 0 评论 -
决策树算法实现要点
1.数据的输入:从文件输入或者手动输入2.数据的整理:建立数据集dataset(vector&lt;vector&gt;),包括数据的条数m和维数n3.获得每个属性(特征)对应的值(范围),包括每个类...原创 2018-11-19 19:41:50 · 253 阅读 · 0 评论 -
噪音样本对模型产生的影响
什么是噪音?其实噪音就是难以轻易被区分并对输出结果产生干扰的那些数据,他们是与众不同的。 噪音样本在自然界中是普遍存在的,他被自然的包裹在大量数据集中,正常的数据集很自然的会存在噪音。 但噪音其实是我们不希望存在的成分,因为他的出现往往会影响模型的准确性,逼迫我们不得不付出更大的努力,生成更加复杂的模型来把噪音包容进去,比如决策树的剪枝操作就是需要加入修正参数α。...原创 2018-11-23 09:22:25 · 4694 阅读 · 0 评论 -
信息熵的理解
信息熵的定义式 H(X)= - ,其中=p(X=) ; i=1,2....n 通过以上的式子求和的单项 ,我们可以理解的是他表示x=xi发生的概率为pi,那么产生一次x=xi的次数应该需要1/pi次,要在1/pi次中找到x=xi的那个特定的点,需要对这些次数进行搜索,至少需要寻找log(1/pi)次,每次找到的概率是pi,所以pi·log(1...原创 2018-11-23 09:38:38 · 332 阅读 · 0 评论 -
交叉验证
本文结构如下:什么是交叉验证?为什么要交叉验证?有哪些交叉验证的方法?这些方法各有什么区别?什么是交叉验证要先明白训练集与测试集:再机器学习和模式识别的应用中往往需要将数据集分为训练集和测试集,前者训练模型,后者检验模型的精度。通常训练集要大于总数据集的一半,不能太少。还要明白训练集与测试集的分配原则:均匀取样,保证训练集/测试集与原数据集的偏差较小,这并不容易,通常使用随...原创 2019-01-11 20:36:32 · 296 阅读 · 0 评论 -
NASA数据集
最近在做预测性维护方面的工作,数据集用的是NASA 2008PHM竞赛的数据集,在youtube上有些相关该数据集的教程,但还是觉得不够。真巧看到了matlab主页上关于预测性维护技术工具箱的文档,发现它正是使用了我要使用的数据集,同时该文档中还发现了一些其他的数据集。以上数据集由一下网站提供:NASA数据集网站...原创 2019-02-09 11:09:26 · 11051 阅读 · 2 评论