机器学习入门

机器学习入门
​    主要理解机器学习的应用场景,以及如何以机器学习的方式来处理现实问题。

一、机器学习发展历程
​    达特摩斯会议 Dartmouth。 2018图灵奖。

二、什么是人工智能
​    应用场景:传统预测、图像识别、自然语言处理。

​    人工智能、机器学习、深度学习 。

三、机器学习算法分类
​    样本由特征值和目标值组成,特征值为样本的特征属性,目标值为样本的目标分类。

​    按照目标值进行分类:

​    1、目标值为离散的类别: 分类问题

​    2、目标值为连续数值:回归问题

​    3、没有目标值:无监督学习

四、机器学习一般开发流程
​    方法:

​    1、获取数据: 确定数据源与处理目标。

​    2、数据处理: 数据ETL。

​    3、特征工程: 最能决定机器学习效果的地方。大多数竞赛的效果差别来源。

​    4、机器学习算法训练: 选择合适的算法及超参数。

​    5、模型评估:一般将数据集拆分成训练集与测试集来评估模型的效果。对算法和超参数进行调整。理解 过拟合 和 欠拟合

​    欠拟合:学习力度不够,加大数据量以及增加学习轮数。

​    过拟合:模型泛化能力不够,在训练集上表现良好,而在测试集上表现不够。

​    过拟合永远会存在,只是通过校正尽量减少过拟合的影响。

​    6、模型应用:评估、预测

​    概念共识: 往往数据和目标就决定了机器学习的效果上限,而技术手段只是让模型更逼近这个上限。

五、学习框架和资料介绍
​    python: sklearn,spark

​    java+scala: spark

​    基础知识:数学、统计学

​    经典教程:机器学习-周志华(西瓜书) , 深度学习(花书)

​    建议的学习路线:

​    1、快速上手,照本敲代码,搞明白机器学习干嘛的。

​    2、用常用公共数据集做一些模型训练。

​    3、尝试解决实际问题: kaggle

​    4、深入底层,跟踪业界最新技术。

六、可用数据源
​    往往数据的数量和质量就决定了机器学习的效果。因此数据源相当重要。

​    1、数据来源:公司内部数据,网络爬虫,数据接口(花钱)

​    2、学习阶段数据源: iris(鸢尾花) ,boston(波士顿房价)

​    1>sklearn 自带少量数据源 , spark,示例中自带少量数据源。

​    2> kaggle 数据建模竞赛

​    3> UCI http://archive.ics.uci.edu/ml/datasets.html
————————————————
 

深度学习是机器学习的一个子领域,它基于人工神经网络的研究,特别是利用多层次的神经网络来进行学习和模式识别。深度学习模型能够学习数据的高层次特征,这些特征对于图像和语音识别、自然语言处理、医学图像分析等应用至关重要。以下是深度学习的一些关键概念和组成部分: 1. **神经网络(Neural Networks)**:深度学习的基础是人工神经网络,它是由多个层组成的网络结构,包括输入层、隐藏层和输出层。每个层由多个神经元组成,神经元之间通过权重连接。 2. **前馈神经网络(Feedforward Neural Networks)**:这是最常见的神经网络类型,信息从输入层流向隐藏层,最终到达输出层。 3. **卷积神经网络(Convolutional Neural Networks, CNNs)**:这种网络特别适合处理具有网格结构的数据,如图像。它们使用卷积层来提取图像的特征。 4. **循环神经网络(Recurrent Neural Networks, RNNs)**:这种网络能够处理序列数据,如时间序列或自然语言,因为它们具有记忆功能,能够捕捉数据中的时间依赖性。 5. **长短期记忆网络(Long Short-Term Memory, LSTM)**:LSTM 是一种特殊的 RNN,它能够学习长期依赖关系,非常适合复杂的序列预测任务。 6. **生成对抗网络(Generative Adversarial Networks, GANs)**:由两个网络组成,一个生成器和一个判别器,它们相互竞争,生成器生成数据,判别器评估数据的真实性。 7. **深度学习框架**:如 TensorFlow、Keras、PyTorch 等,这些框架提供了构建、训练和部署深度学习模型的工具和库。 8. **激活函数(Activation Functions)**:如 ReLU、Sigmoid、Tanh 等,它们在神经网络中用于添加非线性,使得网络能够学习复杂的函数。 9. **损失函数(Loss Functions)**:用于评估模型的预测与真实值之间的差异,常见的损失函数包括均方误差(MSE)、交叉熵(Cross-Entropy)等。 10. **优化算法(Optimization Algorithms)**:如梯度下降(Gradient Descent)、随机梯度下降(SGD)、Adam 等,用于更新网络权重,以最小化损失函数。 11. **正则化(Regularization)**:技术如 Dropout、L1/L2 正则化等,用于防止模型过拟合。 12. **迁移学习(Transfer Learning)**:利用在一个任务上训练好的模型来提高另一个相关任务的性能。 深度学习在许多领域都取得了显著的成就,但它也面临着一些挑战,如对大量数据的依赖、模型的解释性差、计算资源消耗大等。研究人员正在不断探索新的方法来解决这些问题。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值