《西瓜书读书笔记》-第1章 概述

目录

1.机器学习概述

1.1.人工智能与机器学习

1.2.机器学习分类

1.按照算法分类

2.按照学习任务分类

1.3.机器学习应用

1.4.机器学习常用术语解释


1.机器学习概述

1.1.人工智能与机器学习

人工智能(Artificial Intelligence,Al)是一种以智能人类思维的类似方式使计算机,计算机控制的机器人或软件智能地思考的方法。其核心是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。

机器学习主要是研究如何使计算机从给定的数据中学习规律,即从观测数据(样本)中寻找规律,并利用学习到的规律(模型)对未知或无法观测的数据进行预测。

机器学习主要是研究如何使计算机从给定的数据中学习规律,即从观测数据(样本)中寻找规律,并利用学习到的规律(模型)对未知或无法观测的数据进行预测。针对经验E(experience)和一系列的任务T(tasks)和一定表现的衡量P,如果随之经验E的积累,针对定义好的任务T可以提高表现P,就说计算机具有学习能力。

1.2.机器学习分类

1.按照算法分类

分为4大类:

分类(Classification)、回归(Regression)、聚类(Clustering)、关联(Relation)

分类(classification):预测是离散值

比如把人分为好人和坏人之类的学习任务

二分类(binary classification):只涉及两个类别的分类任务

正类(positive class):二分类里的一个

反类(negative class):二分类里的另外一个

多分类(multi-class classification):涉及多个类别的分类

回归(regression):预测值是连续值

比如预测下个月的收入是3860元

聚类(clustering):把训练集中的对象分为若干组

比如将客户分为5类

2.按照学习任务分类

分为监督学习和无监督学习。

监督学习(supervised learning):

从标注数据中学习预测模型的机器学习问题

常见的有监督学习算法有:线性回归、逻辑回归、K-近邻、朴素贝叶斯、决策树、随机森林、支持向量机等。

无监督学习(unsupervised learning):

从无标注数据中学习预测模型的机器学习问题

常见的无监督学习算法有:聚类、EM算法等。

1.3.机器学习应用

计算机视觉、语音识别以及自然语言处理(这里特指文本处理)目前是机器学习领域最常见的几类应用领域。

计算机视觉是一门研究如何让机器能够替代人的眼睛,把看到的图片进行分析、处理的一门科学。在图像分类、人脸识别、车牌识别、自动驾驶中的街景识别等场景均有十分广泛的应用。

语音识别是把语音处理、语义理解等技术和机器学习结合起来。常见的应用有:siri、小冰等语音助手。此外,语音识别经常还会和自然语言处理技术中的机器翻译、语音合成等技术构建出更加复杂的应用,如:语音翻译器。

自然语言处理旨在使用自然语言处理技术使计算机能够“读懂”人类的语言。具体的应用有:谷歌翻译、垃圾邮件的识别、知识图谱等。

1.4.机器学习常用术语解释

数据集:所有数据的集合成为一个数据集 data set

示例/样本:一条记录,即一行数据

属性/特征:描述事物的某一性质,比如西瓜的颜色属性,其实就是列名

属性值:一个属性可能的取值范围,比如西瓜的颜色属性值有 青绿、乌黑

属性空间/样本空间:所有属性构成的空间,比如一个西瓜有颜色、大小、敲声三个属性,就构成一个三维空间

特征向量:一个示例用向量表示

维数:样本的属性个数

标记:示例结果的信息,即要求解的y

假设:模型对应了数据的某种规律 ,所以模型也称为假设

训练集:训练模型使用的数据叫训练集

测试集:用训练集训练处模型后,被预测的样本叫测试集/测试样本

泛化能力:最终得到的模型适用于新样本的能力。模型是基于已有数据训练并测试的,但是最后还是要用来预测今后实际的未知的数据

两个原则:

1.奥卡姆剃刀原则:若多个假设与观察一致,则选择最简单的一个,比如下图选择较为平滑的那个。

2.没有免费的午餐定理NFL:在不考虑具体问题的情况下,没有任何一个算法比另一个算法更优,即没有一种机器学习算法是适用于所有情况的。

如上图,对于某些问题,A可能优于B,但一定会相应存在一些情况B优于A。所以,具体问题具体分析。
 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
R语言实战笔记第九介绍了方差分析的内容。方差分析是一种用于比较两个或多个组之间差异的统计方法。在R语言中,可以使用lm函数进行方差分析的回归拟合。lm函数的基本用法是: myfit <- lm(I(Y^(a))~x I(x^2) I(log(x)) var ... [-1],data=dataframe 其中,Y代表因变量,x代表自变量,a代表指数,var代表其他可能对模型有影响的变量。lm函数可以拟合回归模型并提供相关分析结果。 在方差分析中,还需要进行数据诊断,以确保模型的可靠性。其中几个重要的诊断包括异常观测值、离群点和高杠杆值点。异常观测值对于回归分析来说非常重要,可以通过Q-Q图和outlierTest函数来检测。离群点在Q-Q图中表示落在置信区间之外的点,需要删除后重新拟合并再次进行显著性检验。高杠杆值点是指在自变量因子空间中的离群点,可以通过帽子统计量来识别。一般来说,帽子统计量高于均值的2到3倍即可标记为高杠杆值点。 此外,方差分析还需要关注正态性。可以使用car包的qqplot函数绘制Q-Q图,并通过线的位置来判断数据是否服从正态分布。落在置信区间内为优,落在置信区间之外为异常点,需要进行处理。还可以通过绘制学生化残差的直方图和密度图来评估正态性。 综上所述,R语言实战第九介绍了方差分析及其相关的数据诊断方法,包括异常观测值、离群点、高杠杆值点和正态性检验。这些方法可以用于分析数据的可靠性和模型的适应性。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [R语言实战笔记--第八 OLS回归分析](https://blog.csdn.net/gdyflxw/article/details/53870535)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值