Machine Learning(1)

此系列文章适合开始接触机器学习的大佬们!
学习机器学习很久了,感觉也算在人工智能领域入门了吧!写几篇文章总结一下,希望能给刚刚接触机器学习的大佬们提供帮助,写的有错误的地方请指出,谢谢!

机器学习概述

机器学习是人工智能的核心,是一门交叉学科。机器学习包括监督学习、无监督学习等,我们知道的深度学习其实也是机器学习的一部分。本人写的此系列文章主要是监督学习,当然无监督学习也会涉及一点点。

监督学习与无监督学习的区别

监督学习是指通过已有数据对自己所建立的模型进行训练,然后运用这个模型对新的数据进行预测。就比如我们上学时,我们要做题目,如果我们不上课,面对题目就不会做,而对自己建立的模型进行训练就是好比上课,做题目就好比对新的数据进行预测。
无监督学习用一句话概括就是“物以类聚,人以群分”,通过无监督学习,我们可以将杂乱无章的变成有类别的。

建立模型

建立模型其实就是运用算法处理数据,无监督学习所用的算法有k-means算法。监督学习又分为分类和回归两大类。分类算法有k-近邻,朴素贝叶斯,决策树,随机森林,逻辑回归等算法。回归算法有线性回归,岭回归等算法。

机器学习专有词

在进入机器学习过程前有许多专有名词需要理解。进行机器学习需要大量的数据,而数据一般由.csv文件保存,如下图所示。 图1-1
打开文件基本格式如下图
图1-2
特征值:描述一个事件所具有的属性,通常用x表示,上面表格中特征值是B列到Q列。
目标值:运用模型进行预测的数据,通常用y表示,上面表格中目标值是第R列。
x,y不一定是一维的数据,可以是多维度的。
训练集:对模型进行训练的数据,包括特征值,目标值。
测试集:对训练完的模型读入要预测的数据,只有特征值,通过模型进行预测得到目标值。
特征抽取:筛选特性值,因为并不是所有的特征值对我们机器学习有用,我们只需选取具有代表性的特征值即可。
特征工程:特征抽取是特征工程的一部分,经过特征抽取后,对抽取后的数据经行预处理。
离散型变量:分类算法预测的目标值,数据的值不是连续的。
连续型变量:回归算法预测的目标值,数据的值是连续的。

机器学习过程

第一步:特征工程,数据分析。
第二步:划分数据集,训练集,测试集。
第三步:建立模型,训练。
第四步:测试模型,评估。
第五步:对新数据经行预测。
无监督学习没有第五步。

机器学习工具

学习机器学习需要有一定的python基础,因为机器学习运用的是python中的scikit learn库,此库中封装了许多机器学习的API。官方文档为https://scikit-learn.org/stable/,在运用sklearn进行机器学习前需要先下载python虚拟环境然后下载scikit learn,numpy,pandas库。
windows安装方法如下

pip install numpy
pip install pandas
pip install scikit learn

机器学习准备完毕,谢谢观看,有错误请见谅!下篇更精彩!

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值