【Machine learning】-机器学习概念篇

最新推荐文章于 2022-01-19 21:33:51 发布

zhang_xinxiu

最新推荐文章于 2022-01-19 21:33:51 发布

阅读量1.4k

点赞数 1

分类专栏：【Linux】

本文链接：https://blog.csdn.net/zhang_xinxiu/article/details/53002893

版权

【Linux】专栏收录该内容

8 篇文章 0 订阅

订阅专栏

一、何为机器学习

对于没有了解过机器学习的人来说，机器学习是很神秘的，如果只是按照字面意思来理解可能会认为是机械性的学习，认为是一种概念，当然这个名称也是有误导性的。在不了解机器学习前，我也是这样认为的，这样去理解这个概念是错误的，机器学习并不是机械性的学习方法，而是计算机自己根据输入的数据，汇总出最准确的输出数据。

机器学习是人工智能的基础，准确点说机器学习是一群算法的集合，只要能够让计算机自己根据一大堆的数据统计汇总出一个输出数据，这种就可以统称为机器学习，人工智能也是由算法组成的。

二、基本概念

2.1 基本概念

a. 机器学习的主要任务是分类。
b. 训练集：数据样本，用于训练机器学习算法的数据样本集合。
c. 特征：训练集的属性，即关系表中的数据属性。

d. 目标变量：由一行特征集组合后生成的数据称为目标变量。

Note:特征或者属性通常是训练样本集的列，他们是独立测量得到的结果，多个特征联系在一起共同组成一个训练样本。

e. 知识表示：计算机可以根据输入的数据精确的计算出目标变量的过程。

2.2 主要任务

a. 将数据划分到合适的分类中
b. 回归：预测数值型数据

Note:分类和回归属性监督学习。

2.3 无监督学习

与监督学习相对应，数据没有类别，也不会给定目标值。

a. 聚类：将数据集合分成由类似的对象组成的多个类的过程，也就是把多个类似的东西汇总到一起的过程。
b. 密度估计：寻找描述数据统计值的过程，也就是根据描述的特征估算出一个东西，通俗点说日常生活中的找人，在找一个人时首先根据对这个人的描述，如穿着、打扮，然后确定出这个人的过程。

2.4 选择算法

a. 首先考虑使用机器学习算法的目的。
i. 监督学习：预测目标变量值；
1) 分类：目标变量属于离散型，如：是/否、1/2/3、A/B/C
2) 回归：目标是连续型，如：0.0~100.00、-999~999
ii. 无监督学习：不想预测目标变量的值
1) 聚类：如果只能将数据划分为离散的组。
2) 密度估计：不但把数据划分为离散的组，还要估计数据与每个分组的相似程度

b. 其次考虑数据问题

2.5 开发步骤

a. 收集数据
b. 准备输入数据
c. 分析输入数据
d. 训练算法
e. 测试算法
f. 使用算法

2.6 Python

a. Numpy：python中的一个数据处理的模块
i. 导入所有引用：from numpy import *
ii. 生成随机的数组：random.rand(4,4)
iii. 将数组转换为矩阵：mat()
1) randmat=mat(random.rand(4,4))
iv. 生成逆矩阵(matrix inverse)：randmat.I
v. 矩阵乘法(matrix multiplication)：randmat*randmat.I

vi. 单位矩阵(identity matrix): eye(4)