机器学习资料

本文介绍了Matplotlib、NumPy、Pandas和scikit-learn等Python数据分析和机器学习库的基础教程,涵盖了监督学习(如线性回归、逻辑回归等)、非监督学习(如聚类和降维)以及强化学习的相关概念。同时,文章提及了常用的评价指标和机器学习算法,如损失函数和正则化。
摘要由CSDN通过智能技术生成

Matplotlib 教程 | 菜鸟教程

https://www.cnblogs.com/wang_yb/p/17666711.html

numpy:

nhttps://www.cnblogs.com/wang_yb/p/17515408.html

NumPy 中文文档 (numpy123.com)

pandas:

https://www.cnblogs.com/wang_yb/p/17371731.html

scikit-learn

scikit-learn: machine learning in Python — scikit-learn 0.16.1 documentation

https://www.cnblogs.com/wang_yb/p/17871294.html

版本更新日志-scikit-learn中文社区

机器学习

机器学习:算法原理与实战 - 知乎 (zhihu.com)

机器学习 - 网站分类 - 博客园 (cnblogs.com)

吴恩达机器学习课程资源(笔记、中英文字幕视频、课后作业,提供百度云镜像!)_吴恩达机器学课程视频中文-CSDN博客

vscode

在 VS Code 中使用 Python - 知乎 (zhihu.com)

VSCode + Anaconda(Python)开发环境搭建 - 知乎 (zhihu.com)

阿里通义灵码

GitHub Copilot 最佳免费平替:阿里通义灵码_通义灵码官网-CSDN博客

通义灵码产品介绍_智能编码助手_AI编程_云效(Apsara Devops)-阿里云帮助中心

机器学习的步骤:收集数据、数据准备、选择模型、训练、评估、参数调整和预测。

机器学习的分类:根据训练方法可以分为3大类,监督学习、非监督学习、强化学习。

监督学习:
        在监督学习中,训练数据包含了输入特征,和相应的标签(目标值)。
        监督学习的目标是学习一个从输入到输出的映射,使得模型能够根据输入预测相应的输出。
        典型的监督学习任务包括分类任务和回归任务。
        在分类任务中,目标是将输入数据分为不同的类别,例如图像识别中将图像分类为猫、狗等。
        在回归任务中,目标是预测连续数值型的输出,例如房价预测中预测房屋价格。。

非监督学习:
        在无监督学习中,训练数据只包含输入特征,没有相应的标签或目标值。
        无监督学习的目标是从数据中发现潜在的结构或模式,而无需事先给定标签。
        典型的无监督学习任务包括聚类、降维、异常检测等。
         在聚类任务中,目标是将数据集中的样本分组到不同的簇中,使得同一簇内的样本相似度较高。
        在降维任务中,目标是减少数据集的维度,同时保留数据集中的重要信息。
        在异常检测任务中,目标是识别数据集中的异常样本或异常模式。

强化学习
        定义:智能体通过与环境互动,学习在不同状态下采取最佳行为以获得最大累积回报。

        示例:AlphaStar 通过强化学习训练,在星际争霸游戏中战胜职业选手。

        特点:模拟生物学习过程,有望实现更高智能,关注智能体的决策过程。

机器学习的算法:15种经典机器学习算法

  • 监督学习算法:

        线性回归:一种用于预测连续数值型输出的统计方法,通过找到最佳拟合直线来描述自变量和因变量之间的关系。

        逻辑回归:虽然名字中有“回归”,但它实际上是一种分类算法,用于预测二分类或多分类的结果,通过逻辑函数将线性回归的输出映射到概率空间。

线性判别分析:一种降维技术,同时也用于分类,它通过找到最能区分不同类别的方向来投影数据。

        决策树:一种直观易懂的分类与回归算法,通过树状结构对数据进行划分,每个节点代表一个属性判断,最终到达叶节点得到预测结果。

        朴素贝叶斯:基于贝叶斯定理和特征之间独立的假设来进行分类的算法,简单高效但有时会受限于其独立性假设。

        K邻近:一种基于实例的学习,它的思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别。

        学习向量量化:一种基于神经网络的聚类方法,通过训练来优化码本(即聚类中心),使得每个输入样本都能被最近邻的码字所代表。

        支持向量机:在高维空间中寻找一个超平面来分隔不同类别的数据,并且使得分隔的间隔最大化,对于非线性问题也可以通过核函数映射到高维空间来解决。

        随机森林:通过构建多个决策树并结合它们的预测结果来提高整体预测性能的集成学习方法。

        AdaBoost:一种自适应增强算法,通过组合多个弱分类器来构建一个强分类器,每个弱分类器都关注之前分类器错误分类的样本。

  • 非监督学习算法:

        高斯混合模型:假设所有数据点都是由一定数量的高斯分布混合而成的,通过EM算法来估计每个高斯分布的参数以及它们的权重。

        限制波尔兹曼机:一种生成式随机神经网络,可用于降维、特征学习、预训练和分类等任务,是深度学习领域的重要组件之一。

        K-means 聚类:一种简单且广泛使用的聚类算法,它将数据划分为K个不同的簇,每个簇的中心是所有属于这个簇的数据点的均值。

        最大期望算法:一种迭代优化技术,用于在统计模型中找到可能性最大的参数估计,常用于处理数据中的缺失值或隐藏变量。

--------------------------------------------------------------------------------------------------------

Mean Absolute Error         (MAE)           平均绝对误差
Mean Squared Error         (MSE)           均方误差
Root Mean Squared Error (RMSE)        均方根误差

Explain variance score        解释方差评分
Median absolute error        绝对误差中值

Least Squares    最小二乘法

loss function        损失函数
cost function        代价函数

Gradient Descent    梯度下降
LSTM                      长短期记忆网络
RNN                       递归神经网络


bias                     偏差
variance              方差
shrinkage            特征缩减 
Regularization    正则化


Receiver Operating Characteristic    ROC曲线

特征变量--自变量      通常作为模型的输入
目标变量--因变量     模型的输出   

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值