Machine Learning（1）

最新推荐文章于 2024-09-12 21:05:39 发布

KILL_NETWORK

最新推荐文章于 2024-09-12 21:05:39 发布

阅读量270

点赞数 2

文章标签：机器学习

本文链接：https://blog.csdn.net/qq_44711612/article/details/104154168

版权

此系列文章适合开始接触机器学习的大佬们！
学习机器学习很久了，感觉也算在人工智能领域入门了吧！写几篇文章总结一下，希望能给刚刚接触机器学习的大佬们提供帮助，写的有错误的地方请指出，谢谢！

机器学习概述

机器学习是人工智能的核心，是一门交叉学科。机器学习包括监督学习、无监督学习等，我们知道的深度学习其实也是机器学习的一部分。本人写的此系列文章主要是监督学习，当然无监督学习也会涉及一点点。

监督学习与无监督学习的区别

监督学习是指通过已有数据对自己所建立的模型进行训练，然后运用这个模型对新的数据进行预测。就比如我们上学时，我们要做题目，如果我们不上课，面对题目就不会做，而对自己建立的模型进行训练就是好比上课，做题目就好比对新的数据进行预测。
无监督学习用一句话概括就是“物以类聚，人以群分”，通过无监督学习，我们可以将杂乱无章的变成有类别的。

建立模型

建立模型其实就是运用算法处理数据，无监督学习所用的算法有k-means算法。监督学习又分为分类和回归两大类。分类算法有k-近邻，朴素贝叶斯，决策树，随机森林，逻辑回归等算法。回归算法有线性回归，岭回归等算法。

机器学习专有词

在进入机器学习过程前有许多专有名词需要理解。进行机器学习需要大量的数据，而数据一般由.csv文件保存，如下图所示。图1-1
打开文件基本格式如下图
图1-2
特征值：描述一个事件所具有的属性，通常用x表示，上面表格中特征值是B列到Q列。
目标值：运用模型进行预测的数据，通常用y表示，上面表格中目标值是第R列。
x,y不一定是一维的数据，可以是多维度的。
训练集：对模型进行训练的数据，包括特征值，目标值。
测试集：对训练完的模型读入要预测的数据，只有特征值，通过模型进行预测得到目标值。
特征抽取：筛选特性值，因为并不是所有的特征值对我们机器学习有用，我们只需选取具有代表性的特征值即可。
特征工程：特征抽取是特征工程的一部分，经过特征抽取后，对抽取后的数据经行预处理。
离散型变量：分类算法预测的目标值，数据的值不是连续的。
连续型变量：回归算法预测的目标值，数据的值是连续的。

机器学习过程

第一步：特征工程，数据分析。
第二步：划分数据集，训练集，测试集。
第三步：建立模型，训练。
第四步：测试模型，评估。
第五步：对新数据经行预测。
无监督学习没有第五步。

机器学习工具

学习机器学习需要有一定的python基础，因为机器学习运用的是python中的scikit learn库，此库中封装了许多机器学习的API。官方文档为https://scikit-learn.org/stable/，在运用sklearn进行机器学习前需要先下载python虚拟环境然后下载scikit learn，numpy，pandas库。
windows安装方法如下

pip install numpy
pip install pandas
pip install scikit learn

机器学习准备完毕，谢谢观看，有错误请见谅！下篇更精彩！

KILL_NETWORK

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫