文章目录
1.前言
这篇文章主要是想要简单的介绍一些关于数据挖掘和机器学习的知识点。整个文章会先从机器学习的类型,机器学习的工作流程,数据的实例和属性类型来进行简单的介绍。希望本文对一些想要了解机器学习和入门数据挖掘的人们能起到一定的帮助。这将是一篇精简的文章。
2.机器学习的四种类型
- 分类法: 给出一组已分类的例子,学习对一个新的例子进行分类
- 关联: 找到属性或属性组合之间的任何有趣的关联属性的组合
- 聚类: 将类似的例子组合在一起
- 数值预测: 不进行分类,而是预测一个数字值
3.机器学习的工作流程
机器学习将会从获取数据开始,将数据先预处理,可以净化数据集,删除一些没有用的数据等方法来保证数据的干净。然后将处理后的数据用来创建模型,并且将创建好的模型进行测试直到满足目标条件后将模型进行部署,这就是一个传统的机器学习流程。现在的机器学习的工作流程大部分会有一个步骤是优化模型,通过调整超参数等方法来优化模型。网上很多文章写的并不简洁易懂,这里我使用了我的老师Ekaterina Komendantskaya所演示过的一张简洁的机器学习流程图如下。
4.数据的描述
(1).实例
- 简单案例–数据行
- 学习方案的输入=实例集(数据集)
- 表示为一个单一的关系,或一个平面文件
- 输入的形式相当有限
- 实例之间没有关系
(2).属性
- 每个实例都由一组固定的预定义属性来描述
- 属性的数量可能有所不同
- 一个属性的存在可能取决于另一个属性的值
通常情况下,我们对预测一个特定属性的值感兴趣。因为它是由其他属性的值决定的。我们想要预测的东西被称为类或目标。
补充: 一般情况下对于二维的数据集,每一行是实例,每一列是属性。
5.属性值类型
这里将会介绍四种常见的属性值类型。
(1).Nominal
- Nominal来自于拉丁语中的名字
- 值是不同的符号
- 值只作为标签或名称使用
- 名义值之间没有隐含的关系
- 没有排序或距离测量
- 只能进行平等测试
- 也被称为分类的
例如, 颜色(红色,黄色…), 国家(英国,美国…)
(2).Ordinal
- 这些值是有顺序的
- 数值之间没有确定的距离
- 无法使用加减法
例如, 温度可以用热,适合和冷来表示
(3).Interval
- 是有序的,也是以固定的、相等的单位
- 总和或乘积是没有意义的
- 零点没有定义
例如, 温度华氏度, 公元纪年法
(4).Ratio
- 定义了一个零点的量。
- Ratio被当作实数处理
- 所有的数学运算都是允许的
- 可以减去区间值,得到一个Ratio
例如,物体之间的距离
版权声明
本文被以下参考引用内容外均为J0hn原创内容,最终解释权归原作者所有。如有侵权,请联系删除。未经本人授权,请勿私自转载!
6.参考资料
[1]. Data Mining Book https://www.cs.waikato.ac.nz/ml/weka/book.html