机器学习与数据的简述

J0hn

已于 2023-03-20 07:04:17 修改

阅读量199

点赞数 1

分类专栏： Blog 文章标签：数据挖掘人工智能

于 2022-12-31 05:42:54 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sjhjohn/article/details/128502564

版权

Blog 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

文章目录

1.前言
2.机器学习的四种类型
3.机器学习的工作流程
4.数据的描述
- (1).实例
- (2).属性
5.属性值类型
6.参考资料

1.前言

这篇文章主要是想要简单的介绍一些关于数据挖掘和机器学习的知识点。整个文章会先从机器学习的类型，机器学习的工作流程，数据的实例和属性类型来进行简单的介绍。希望本文对一些想要了解机器学习和入门数据挖掘的人们能起到一定的帮助。这将是一篇精简的文章。

2.机器学习的四种类型

分类法: 给出一组已分类的例子，学习对一个新的例子进行分类
关联: 找到属性或属性组合之间的任何有趣的关联属性的组合
聚类: 将类似的例子组合在一起
数值预测: 不进行分类，而是预测一个数字值

3.机器学习的工作流程

机器学习将会从获取数据开始，将数据先预处理，可以净化数据集，删除一些没有用的数据等方法来保证数据的干净。然后将处理后的数据用来创建模型，并且将创建好的模型进行测试直到满足目标条件后将模型进行部署，这就是一个传统的机器学习流程。现在的机器学习的工作流程大部分会有一个步骤是优化模型，通过调整超参数等方法来优化模型。网上很多文章写的并不简洁易懂，这里我使用了我的老师Ekaterina Komendantskaya所演示过的一张简洁的机器学习流程图如下。
ML Workflow

4.数据的描述

(1).实例

简单案例–数据行
学习方案的输入=实例集（数据集）
表示为一个单一的关系，或一个平面文件
输入的形式相当有限
实例之间没有关系

(2).属性

每个实例都由一组固定的预定义属性来描述
属性的数量可能有所不同
一个属性的存在可能取决于另一个属性的值

通常情况下，我们对预测一个特定属性的值感兴趣。因为它是由其他属性的值决定的。我们想要预测的东西被称为类或目标。

补充: 一般情况下对于二维的数据集，每一行是实例，每一列是属性。

5.属性值类型

这里将会介绍四种常见的属性值类型。

(1).Nominal

Nominal来自于拉丁语中的名字
值是不同的符号
值只作为标签或名称使用
名义值之间没有隐含的关系
没有排序或距离测量
只能进行平等测试
也被称为分类的

例如，颜色(红色，黄色…), 国家(英国，美国…)

(2).Ordinal

这些值是有顺序的
数值之间没有确定的距离
无法使用加减法

例如，温度可以用热，适合和冷来表示

(3).Interval

是有序的，也是以固定的、相等的单位
总和或乘积是没有意义的
零点没有定义

例如，温度华氏度，公元纪年法

(4).Ratio

定义了一个零点的量。
Ratio被当作实数处理
所有的数学运算都是允许的
可以减去区间值，得到一个Ratio

例如，物体之间的距离

版权声明
本文被以下参考引用内容外均为J0hn原创内容，最终解释权归原作者所有。如有侵权，请联系删除。未经本人授权，请勿私自转载！

6.参考资料

[1]. Data Mining Book https://www.cs.waikato.ac.nz/ml/weka/book.html

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

J0hn CSDN认证博客专家 CSDN认证企业博客

码龄9年

5: 原创

15万+: 周排名

105万+: 总排名

6834: 访问

: 等级

115: 积分

10: 粉丝

13: 获赞

18: 评论

52: 收藏

私信

关注

热门文章

分类专栏

Blog 5篇

最新评论

机器学习分析平台开发
J0hn: 框架介绍视频：https://www.youtube.com/watch?v=L93tHXxFLZI&t=105s
机器学习分析平台开发
J0hn: 英文版本：http://junhaosong.com/2021/08/26/Machine%20Learning%20Analysis%20Platform%20Development/
区块链的应用和原理
J0hn: 博客的英文地址:http://junhaosong.com/2021/03/19/Principles-of-Blockchain-and-Bitcoin/
C++语言利用函数重载和运算符重载完成复数运算
J0hn: 博客的英文地址: http://junhaosong.com/2020/12/27/C-language-uses-function-overloading-and-operator-overloading-to-complete-complex-number-operations/
区块链的应用和原理
自由学者亻伊宸: 太赞了，支持博主，大佬有兴趣也可以看下我的博客，说不定有收获哦~

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。