机器学习（Machine Learning，ML）则是人工智能的一个分支，致力于开发能够从数据中学习和改进其性能的算法和统计模型-CSDN博客

本文链接：https://blog.csdn.net/2301_79425796/article/details/142643561

下面内容摘录自《用R探索医药数据科学》专栏文章的部分内容（原文5773字）。

1章2节：关于人工智能、机器学习、统计学与 ChatGPT 的探究 (更新20240814)-CSDN博客文章浏览阅读1.1k次。在现代科技发展的浪潮中，人工智能（AI）、机器学习（ML）、统计学、R 编程语言以及大型语言模型（如 ChatGPT）已经成为推动创新和解决复杂问题的关键力量。这些技术之间不仅存在密切的联系和相互的作用，而且还存在一定的区别，本文一一探索。https://blog.csdn.net/2301_79425796/article/details/140560500?csdn_share_tail=%7B%22type%22%3A%22blog%22%2C%22rType%22%3A%22article%22%2C%22rId%22%3A%22140560500%22%2C%22source%22%3A%222301_79425796%22%7D

一、人工智能

在过去的 60 年间，数据、事实以及信息呈现出爆发式的增长，特别是在人类基因编码领域中的数据，这一现象标志着一个全新时代的降临，即大数据时代。计算机技术能够将这个世界上浩如烟海的数据转化为知识、事实和信息。在此，就不得不提及人工智能（Artificial Intelligence, AI）了。在人工智能中，“人工”这个词汇是英文单词“artificial”的中文译意。在日常用语里，“artificial”一词意为合成的（也就是人造的），这往往带有负面意味，意味着“人造物体仅仅是真实物体的次要形式”。但实际上，人造物体常常优于真实或者自然物体。“智能”（intelligence）指的是个体从经验当中学习、进行正确推理、记住重要信息，以及应对日常生活需求的认知能力。

........

二、机器学习

机器学习（Machine Learning，ML）则是人工智能的一个分支，致力于开发能够从数据中学习和改进其性能的算法和统计模型。简而言之，机器学习让计算机通过分析大量数据自行“学习”并做出预测或决策，

早期的机器学习

1943年：沃尔特·皮茨（Walter Pitts）和沃伦·麦卡洛克（Warren McCulloch）在他们的论文《神经活动中的思想逻辑演算》（A Logical Calculus of the Ideas Immanent in Nervous Activity）中引入了第一个神经网络的数学模型。这项工作奠定了理解神经网络如何模拟人类思维过程的基础。

1949年：加拿大心理学家唐纳德·赫布（Donald Hebb）出版了《行为的组织》（The Organization of Behavior），提出了神经元相互作用的理论，这些理论后来为人工神经网络的发展提供了参考。赫布的“共同发火，联结加固”原则成为生物系统和人工系统中学习理论的基石。

机器学习的兴起

1950年：阿兰·图灵（Alan Turing）在他的论文《计算机器与智能》（Computing Machinery and Intelligence）中提出了图灵测试，该测试旨在评估机器表现出与人类相同或无法区分的智能行为的能力。

Alan Turing (1912-1954) in 1936 at Princeton University

（图：阿兰·图灵 (1912-1954) 在 1936年。阿兰·图灵是一位英国数学家、逻辑学家、密码学家和计算机科学家。他在第二次世界大战期间为破解德国的恩尼格玛密码做出了关键贡献，这不仅大大加速了战争的结束，也展示了计算机在复杂计算和问题解决中的巨大潜力。著名的图灵测试是阿兰·图灵在1950年发表的论文《计算机器与智能》中提出的一种评估机器智能的方法。该测试旨在回答“机器能思考吗？”这个问题。尽管随着技术的发展，图灵测试的局限性和挑战逐渐显现，但它仍然是人工智能领域一个重要的思想实验和衡量标准。）

1952年：亚瑟·塞缪尔（Arthur Samuel）开发了第一个自学习程序，一个跳棋游戏算法，使用如α-β剪枝和评分函数等技术，通过经验改善其游戏能力。1959年，塞缪尔提出了“机器学习”这一术语。

1956年：由约翰·麦卡锡（John McCarthy）、马文·明斯基（Marvin Minsky）、内森尼尔·罗切斯特（Nathaniel Rochester）和克劳德·香农（Claude Shannon）组织的达特茅斯会议通常被认为是人工智能领域的诞生。这一事件催生了对机器学习和AI技术的研究。

机器学习的发展

1960年代：这一十年见证了早期学习机器的发展，如分析声纳信号和语音模式的Cybertron。研究集中在模式识别和能够从数据中学习的算法实现。

1970年代：对机器学习的兴趣持续，算法在识别模式和基于经验做出决策方面取得了重大进展。这一时期还引入了用于基本模式识别任务的最近邻算法。

1980年代：该领域开始转向更复杂的模型，包括杰拉尔德·德琼（Gerald Dejong）引入的基于解释的学习，使计算机能够丢弃无关信息并从训练数据中形成一般规则。

1990年代：焦点从知识驱动转向数据驱动的方法，在处理大数据集的算法方面取得了重大进展。1997年，IBM的深蓝（Deep Blue）击败国际象棋冠军加里·卡斯帕罗夫（Garry Kasparov），标志着AI和机器学习历史上的一个重要时刻。

2000年代：深度学习的引入，特别是杰弗里·辛顿（Geoffrey Hinton）的工作，彻底改变了该领域。这一时期见证了卷积神经网络（CNN）的发展及机器学习在图像识别和自然语言处理等各个领域的应用。

2010年代：主要里程碑包括2011年IBM Watson赢得《危险边缘！》比赛，以及Facebook等公司在面部识别技术上的进展。机器学习成为许多应用的核心，从自动驾驶汽车到个人助理。

在数据科学中，机器学习的主要目的是通过观测数据来估计模型的未知参数值，将假设转化为统计参数假设，并进行假设检验和结果解释。例如，线性回归算法在传统统计学和机器学习中都被广泛使用。通过这种方法，我们既可以训练一个线性回归机器学习模型，也可以通过最小二乘法拟合一个线性回归统计模型。在机器学习中，线性回归算法用于训练具有预测功能的模型，并使用新数据集进行测试，以验证模型在新数据集上的预测或分类能力。然而，在统计学中，更强调的是假设数据具有高斯噪声，通过拟合一条最小化均方误差的线性模型来描述数据与输出变量之间的关系，从而进行统计推断。

在R语言中，有几个著名的机器学习扩展包，它们为数据科学家和分析师提供了强大的工具。caret 是一个广泛使用的包，简化了模型训练和调参的流程，支持多种算法。randomForest包实现了随机森林算法，常用于分类和回归任务。xgboost包以其高效的梯度提升框架著称，特别适合处理大规模数据集。此外，tidymodels是一个现代化的建模框架，整合了多个包，为机器学习提供了简洁而灵活的工作流程。

以下是一段简单的R代码，展示了如何在传统统计学和机器学习中使用线性回归算法。该代码首先生成一个示例数据集，然后使用线性回归模型进行拟合和预测。

# 生成示例数据集
set.seed(123)
n <- 100
x <- rnorm(n)
y <- 5 + 3 * x + rnorm(n, sd=2)

# 数据可视化
plot(x, y, main="示例数据", xlab="自变量 x", ylab="因变量 y")

# 传统统计学：使用最小二乘法拟合线性回归模型
lm_model <- lm(y ~ x)
summary(lm_model)

# 绘制拟合线
abline(lm_model, col="blue", lwd=2)

# 机器学习：划分训练集和测试集
set.seed(456)
train_indices <- sample(1:n, size=0.7*n)
train_data <- data.frame(x=x[train_indices], y=y[train_indices])
test_data <- data.frame(x=x[-train_indices], y=y[-train_indices])

# 训练线性回归模型
ml_model <- lm(y ~ x, data=train_data)

# 使用测试集进行预测
predictions <- predict(ml_model, newdata=test_data)

# 绘制测试集预测结果
plot(test_data$x, test_data$y, main="测试集预测结果", xlab="自变量 x", ylab="因变量 y")
points(test_data$x, predictions, col="red", pch=19)
legend("topleft", legend=c("真实值", "预测值"), col=c("black", "red"), pch=c(1, 19))

# 计算预测误差
mse <- mean((test_data$y - predictions)^2)
print(paste("均方误差:", mse))

三、机器学习和传统统计学

机器学习和传统统计学是数据科学中相辅相成的两个重要分支。机器学习主要侧重于开发和使用算法来识别数据中的模式，并对未知事物进行预测和分类，它强调自动化和处理大规模数据的能力，通过训练模型从数据中进行学习，以实现高效的预测和识别任务。而传统统计学则注重对数据进行深入的推断分析，着重于因果关系的识别和结果的解释，强调理论基础和假设检验，通过严谨的方法论来推导出数据背后的规律和意义。两者在数据科学中都是不可或缺的，它们共同为我们提供了理解和利用数据的工具，既能帮助我们做出准确的预测，又能帮助我们揭示数据中潜在的因果关系。

.......................

在这里，你学到的并非仅仅是 R 的某一个技巧，而是能够从零开始，深入且系统地学习 R 语言。此外，本专栏每周至少定期更新三篇文章，每篇文章篇幅均在 5000 字以上。而且，对于已经发表的知识点，我们也会根据新的技术或理解及时进行更新，这是纸质版图书无法做到的。为了让更多的忠实粉丝和同学们享受到实惠，本专栏采用折扣定价策略。随着章节的不断完成，折扣力度会逐渐减小。所以，现在正是订阅的最佳时机！

https://blog.csdn.net/2301_79425796/category_12729892.html?spm=1001.2014.3001.5482