一、前言
机器学习--特征与标签 : 输入模型的属性是“特征”,输出的是“标签”
机器学习的核心是“使用算法解析数据,从中学习,然后对世界上的某件事情做出决定或预测”。
这意味着,与其显式地编写程序来执行某些任务,不如教计算机如何开发一个算法来完成任务。有三种主要类型的机器学习:监督学习、非监督学习和强化学习,所有这些都有其特定的优点和缺点。监督学习涉及一组标记数据。计算机可以使用特定的模式来识别每种标记类型的新样本。监督学习的两种主要类型是分类和回归。在分类中,机器被训练成将一个组划分为特定的类。分类的一个简单例子是电子邮件帐户上的垃圾邮件过滤器。过滤器分析你以前标记为垃圾邮件的电子邮件,并将它们与新邮件进行比较。如果它们匹配一定的百分比,这些新邮件将被标记为垃圾邮件并发送到适当的文件夹。那些比较不相似的电子邮件被归类为正常邮件并发送到你的邮箱。
第二种监督学习是回归。在回归中,机器使用先前的(标记的)数据来预测未来。天气应用是回归的好例子。使用气象事件的历史数据(即平均气温、湿度和降水量),你的手机天气应用程序可以查看当前天气,并在未来的时间内对天气进行预测。
在无监督学习中,数据是无标签的。由于大多数真实世界的数据都没有标签,这些算法特别有用。无监督学习分为聚类和降维。聚类用于根据属性和行为对象进行分组。这与分类不同,因为这些组不是你提供的。聚类的一个例子是将一个组划分成不同的子组(例如,基于年龄和婚姻状况),然后应用到有针对性的营销方案中。降维通过找到共同点来减少数据集的变量。大多数大数据可视化使用降维来识别趋势和规则。
最后,强化学习使用机器的个人历史和经验来做出决定。强化学习的经典应用是玩游戏。与监督和非监督学习不同,强化学习不涉及提供“正确的”答案或输出。相反,它只关注性能。这反映了人类是如何根据积极和消极的结果学习的。很快就学会了不要重复这一动作。同样的道理,一台下棋的电脑可以学会不把它的国王移到对手的棋子可以进入的空间。然后,国际象棋的这一基本教训就可以被扩展和推断出来,直到机器能够打(并最终击败)人类顶级玩家为止。
机器学习是人工智能的一个分支。机器学习使用特定的算法和编程方法来实现人工智能。人工智能致力于创造出比人类更能完成复杂任务的机器。这些任务通常涉及判断、策略和认知推理,这些技能最初被认为是机器的“禁区”。虽然这听起来很简单,但这些技能的范围非常大——语言处理、图像识别、规划等等。
人工神经网络算法基于生物神经网络的结构,深度学习采用神经网络模型并对其进行更新。它们是大、且极其复杂的神经网络,使用少量的标记数据和更多的未标记数据。神经网络和深度学习有许多输入,它们经过几个隐藏层后才产生一个或多个输出。这些连接形成一个特定的循环,模仿人脑处理信息和建立逻辑连接的方式。此外,随着算法的运行,隐藏层往往变得更小、更细微。
深度学习是机器学习的一个子集,专注于模仿人类大脑的生物学和过程。目的是模仿人脑的思维过程,经常用于图像和语音识别。
(以上内容,了解即可)
二、机器学习步骤
(一)提出问题
一切机器学习的目标都是为了解决生活中的实际问题,只有明确要研究的问题才能提供方向。
(二)理解数据
这包括三方面:
采集数据:根据相关内容采集数据;
导入数据:我们拿到的数据可能在Excel、网络、或者数据库中,需将这些数据导入到Python数据结构中,如读取数据到数据框中;
查看数据集信息:如描述统计信息,从整体上了解数据。
(三)数据清洗
即数据预处理,从数据集中提取想要的特征信息。
(四)构建模型
用 训练数据来构建模型,即将上一步提取的数据特征放入机器学习算法中来构建模型。
(五)评估模型
用 测试数据 来评估模型的准确性,看模型预测效果如何。
(六)方案实施
将分析结果用分析报告进行汇报,若为kaggle项目,要将预测结果放到kaggle中即看到排名
三、Python机器学习包(sklearn)
Python中有一个专门的机器学习包---scikit-learn,简称sklearn,没有安装的可以在终端 conda install scikit-learn 安装这个机器学习包。安装机器学习包
四、相关性分析
备注:鉴于相关性分析的理论知识,在《深入浅出统计学》的第十五章 线性与回归 中讲得很简洁易懂,以下摘抄部分!
(一)概念浅析
单变量数据考虑的是一个单一变量的频数或概率。例如:单变量数据可以描述赌场收益。
单变量数据无法显示多组数据之间的关系。如果需要了解不同变量之间的关系,需用另一种类型的数据——二变量数据。
对于每一个观察结果,二变量数据给出两个变量数值。如果其中一个变量以某种方式受到控制,或者被用来解释另一变量,则这个变量被称为自变量或解释变量,另一个变量则被称为因变量或者反应变量。
绘制二变量数据图形,以x轴描述一个变量,以y轴描述另一个相应变量。借助这种图可以体现两个变量之间的关系。这种图叫做散点图或散布图。
#导入collections中的OrderedDict函数
from collections import OrderedDict
import pandas as pd
import matplotlib.pyplot as plt
#数据集
examDict={'学习时间':[0.5,0.75,1.00,1.25,1.5,1.75,1.75,2.00,2.25,2.50,2.75,3.00,3.25,3.5,4.00,4.25,4.5,4.75,5.00,5.5],
'分数':[10,22,13,43,20,22,33,50,62,48,55,75,62,73,81,76,64,82,90,93]}
examOrderDict = OrderedDict(examDict)</

本文介绍了机器学习的基础知识,包括监督学习的分类和回归问题,以及无监督学习的聚类和降维。重点讨论了线性回归在相关性分析中的应用,通过Python的scikit-learn库实现数据拆分、模型训练和评估。通过实例展示了如何利用线性回归找出最佳拟合线,并计算决定系数以评估模型精度。
最低0.47元/天 解锁文章
2万+

被折叠的 条评论
为什么被折叠?



