学习人工智能你需要了解的基本概念

640?wx_fmt=png

  Spark推荐系统,干货,心得 

  点击上方蓝字关注~

人工智能与机器学习、深度学习的区别

640?wx_fmt=jpeg


从上面三个同心圆的图像中可以看出,DL(深度学习)是ML(机器学习)的子集,ML(机器学习)也是AI(人工智能)的子集。

因此,人工智能是一个包罗万象的概念,最初爆发,然后是ML,后来蓬勃发展,最后DL是有望将人工智能的进步提升到另一个水平。


人工智能是什么 =》拟人。

人工智能:包括的范围很广,数据挖掘,机器学习,深度学习等。


机器学习(Machine Learning):根据已有的数据,找出规律,对未知的数据进行预测。

对于一个任务T,随着经验E的增加,在该任务上的表现P得到提高。

数据 (data) + 算法 (algo) =>模型(model)------->预测(predict)

机器学习(Machine Learning)中,数据决定机器学习的上限,算法只能逼近这个上限



机器学习任务分类:

监督学习任务:数据给出了明确的预测目标。

   任务分类:分类(classification),回归(regression)

   分类(classification)任务:预测目标是离散值

   包括算法:knn(k最近邻),Logistic Regression(逻辑回归),Decision Tree(决策树),SVM(支持向量机),Naive Byes(朴素贝叶斯),RF(随机森林),GBDT(梯度提升树),XGBoost,ANN(神经网络)等等

   回归(regression)任务:预测目标是连续值

   包括算法:knn(k最近邻), Linear Regression(线性回归), Lasso,Ridge, RF(随机森林), GBDT(梯度提升树), XGBoost, ANN(神经网络)等等

 

非监督学习任务:数据没有明确的预测目标。

   任务分类:聚类(clustering),降维(Dimensionality reduction)

   聚类(clustering):对原始数据进行分组

   包括算法:kmeans,dbscan,GMM,谱聚类等。

   降维(Dimensionality reduction):对原始数据的特征进行维度降低(减少)

   包括算法:PCA,LDA,SVD等

 

半监督学习任务:有部分数据有明确的预测目标,有部分数据没有。

 

机器学习中常见的术语:

样本sample:指某一个随机事件的发生。

样本集又称为数据集data set,多个独立随机事件的发生

训练集training set:数据集中用于训练模型的数据

测试集testing set:数据集中用于验证模型的数据

一个数据集中的训练数据一般为2/3-3/4

特征:样本的某个属性。在数据库中称为字段,在oop称为属性

特征向量:多特特征的组合

维度:特征向量中特征的个数

标签label:预测的目标列。又称为类标签(class label)。或者是输出数据。用Y来表示.Y表示输出数据集,y表示某一个输出数据。

输入数据:数据集中除标签列以外的数据。用X表示输入数据集,x表示某一个输入数据。

所以机器学习其实做的就是 X—>Y 的映射。映射的函数就是算法,映射函数的参数就是模型。训练的过程就是找出参数的过程。

640?wx_fmt=jpeg

推荐阅读:

机器学习中一些基础的数学

Spark特征工程

Spark梯度下降法

ChiSqSelector卡方选择器

640?wx_fmt=jpeg

长按识别二维码关注我们

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值