机器学习基础概念

一梦不醒

于 2019-03-21 20:20:46 发布

阅读量137

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39153421/article/details/88723918

版权

数据挖掘和机器学习的关系

什么是数据挖掘？

1.周杰伦是男歌手吗？

2.吸烟是不是肺癌发病率的主要诱因？

哪个是数据挖掘研究的问题？

周杰伦是不是男歌手，显而易见，查一下他的资料就可知，是他的一个属性，男女两种，，很容易去确定。

吸烟是不是肺癌诱因？这问题就比较复杂，肺癌的诱因会有很多种，饮食、环境、基因等，不能很确定的说肺癌就是这种因素引起的，简单地通过查找是不能得到问题的准确的答案的，可能需要分析大量的数据，才能得到较满意的结果，这就是数据挖掘所要解决的问题。

数据挖掘其实还有很多知识点，对于数据挖掘最重要的就是机器学习，相当于一种工具（算法）

训练数据/验证数据/测试数据

建模之前，数据分为三个部分：

训练集：用于训练，构建模型

验证集：训练过程中测试模型的好坏（偷懒一般不设验证集，正常应该有的）

测试集：模型训练好后，用测试集测试模型的好坏

监督学习/无监督学习/半监督学习

监督学习：

用于训练的图片带有标签，去建立模型，成为有监督的学习，如下图的标签3，dog

监督学习就是人们常说的分类，通过已有的训练样本（即已知数据以及其对应的输出）去训练得到一个最优模型（这个模型属于某个函数的集合，最优则表示在某个评价准则下是最佳的）。再利用这个模型将所有的输入映射为相应的输出，对输出进行简单的判断从而实现分类的目的。就像我输入了一个人的信息，他是有性别属性的。我们输入我们的模型后，我们就明确的知道了输出的结果，也可以验证模型的对错。

举个例子，我们从小并不知道什么是手机、电视、鸟、猪，那么这些东西就是输入数据，而家长会根据他的经验指点告诉我们哪些是手机、电视、鸟、猪。这就是通过模型判断分类。

例子：手写数字识别

无监督学习：

训练的数据没有标签，通过聚类算法（下图两部分，圈内的离得比较近，属性等比较相似，属于同一类）分出样本数据一些具有相同属性的样本，属于同一类，这种叫做无监督学习，简单的说就是数据没有带标签。

半监督学习：

半监督学习是上面两种的结合，主要使用少量带有标签的数据和大量没有带标签的数据进行训练和分类的问题。用的比较少。

回归/分类/聚类

回归：

数据点分布如下，其中蓝色的线称之为回归线，图片中拟合数据点较多的一条线（面），可应用于数据预测，股票走势预测等

预测的数据是连续性的数据。

例子：

分类：

一般都是代表性的数据，应用如：

图像识别

垃圾邮件分类

文本分类

预测的数据类别型的数据，且类别已知。

例子：

聚类：

无监督学习，用聚类算法后分类。预测数据为类别型数据，但类别未知。

例子：

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习基础概念

数据挖掘和机器学习的关系什么是数据挖掘？1.周杰伦是男歌手吗？2.吸烟是不是肺癌发病率的主要诱因？哪个是数据挖掘研究的问题？周杰伦是不是男歌手，显而易见，查一下他的资料就可知，是他的一个属性，男女两种，，很容易去确定。吸烟是不是肺癌诱因？这问题就比较复杂，肺癌的诱因会有很多种，饮食、环境、基因等，不能很确定的说肺癌就是这种因素引起的，简单地通过查...
复制链接

扫一扫

一梦不醒 CSDN认证博客专家 CSDN认证企业博客

码龄7年

101: 原创

5万+: 周排名

80万+: 总排名

15万+: 访问

: 等级

1727: 积分

41: 粉丝

82: 获赞

23: 评论

316: 收藏

私信

关注

分类专栏

pwn 11篇
密码学 1篇
内核调试 1篇
qemu 1篇
reverse 1篇
ida 1篇
汇编 1篇
gdb命令 2篇
木马
堆结构 1篇
EVM
house of force 1篇
逆向题解 1篇
机器学习 1篇
深度学习
数学
教程 11篇
Android 14篇
python 3篇
IOS 7篇

最新评论

2020强网杯Siri记录
一梦不醒: https://github.com/ctfwiki/ctf_game_history/blob/master/2020/%E5%BC%BA%E7%BD%91%E6%9D%AF.md
2020强网杯Siri记录
一梦不醒: https://github.com/ctfwiki/ctf_game_history/blob/master/2020/%E5%BC%BA%E7%BD%91%E6%9D%AF.md
2020强网杯Siri记录
魔瞳。: 求源文件师傅
nexus 5x刷入twrp 安装xposed框架
debug_cat: 你好啊，Android 6.0.1 r1这个分支我在官方没有找到对应的nexus 5x的驱动文件啊，请问你是怎么刷真机的
Ubuntu16.04升级gdb7.11升级到10.2版本
L1s4: 大标题《下载源码》下面有个蓝色的 gdb源码超链接

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。