什么是机器学习?

什么是机器学习:机器学习是一种数据分析技术,让计算机执行人和动物与生俱来的活动:从经验中学习。机器学习算法使用计算方法直接从数据中“学习”信息,而不依赖于预定方程模型。当可用于学习的样本数量增加时,这些算法可自适应提高性能。

机器学习为什么重要

随着大数据应用增加,机器学习已成为解决以下领域问题的一项关键技术:

  • 计算金融学,用于信用评估和算法交易
  • 图像处理和计算机视觉,用于人脸识别、运动检测和- 对象检测
  • 计算生物学,用于肿瘤检测、药物发现和 DNA 序列分析
  • 能源生产,用于预测价格和负载
  • 汽车、航空航天和制造业,用于预见性维护
  • 自然语言处理,用于语音识别应用

更多数据、更多问题、更好的解答
机器学习算法能够在产生洞察力的数据中发现自然模式,帮助您更好地制定决策和做出预测。医疗诊断、股票交易、能量负荷预测及更多行业每天都在使用这些算法制定关键决策。例如,媒体网站依靠机器学习算法从数百万种选项中筛选出为您推荐的歌曲或影片。零售商利用这些算法深入了解客户的购买行为。

何时应该使用机器学习?
当您遇到涉及大量数据和许多变量的复杂任务或问题,但没有现成的处理公式或方程式时,可以考虑使用机器学习。例如,如果您需要处理以下情况,使用机器学习是一个很好的选择:
什么是机器学习
手写规则和方程式太过复杂——例如人脸识别和语音识别。
什么是机器学习
任务的规则始终在变化——例如通过交易记录进行欺诈检测。
什么是机器学习
数据本身在不断变化,程序也必须适应这种变化——例如自动交易、能量需求预测和购物趋势预测等。

机器学习的工作原理

机器学习采用两种技术:监督式学习和无监督学习。监督式学习根据已知的输入和输出训练模型,让模型能够预测未来输出;无监督学习从输入数据中找出隐藏模式或内在结构。
 

 图 1:机器学习技术包括监督式学习和无监督学习。

监督式学习

监督式机器学习能够根据已有的包含不确定性的数据建立一个预测模型。监督式学习算法接受已知的输入数据集(包含预测变量)和对该数据集的已知响应(输出,响应变量),然后训练模型,使模型能够对新输入数据的响应做出合理的预测。如果您尝试去预测已知数据的输出,则使用监督式学习。

监督式学习采用分类和回归技术开发预测模型。

分类技术可预测离散的响应 — 例如,电子邮件是不是垃圾邮件,肿瘤是恶性还是良性的。分类模型可将输入数据划分成不同类别。典型的应用包括医学成像、语音识别和信用评估。

如果您的数据能进行标记、分类或分为特定的组或类,则使用分类。例如,笔迹识别的应用程序使用分类来识别字母和数字。在图像处理和计算机视觉中,无监督模式识别技术用于对象检测和图像分割。

用于实现分类的常用算法包括:支持向量机 (SVM)、提升 (boosted) 决策树和袋装 (bagged) 决策树、k-最近邻、朴素贝叶斯 (Naïve Bayes)、判别分析、逻辑回归和神经网络。

回归技术可预测连续的响应 — 例如,温度的变化或电力需求中的波动。典型的应用包括电力系统负荷预测和算法交易。

如果您在处理一个数据范围,或您的响应性质是一个实数(比如温度,或一件设备发生故障前的运行时间),则使用回归方法。

常用回归算法包括:线性模型、非线性模型、规则化、逐步回归、提升 (boosted) 和袋装 (bagged) 决策树、神经网络和自适应神经模糊学习。

使用监督式学习预测心脏病发作
假设临床医生希望预测某位患者在一年内是否会心脏病发作。他们有以前就医的患者的相关数据,包括年龄、体重、身高和血压。他们知道以前的患者在一年内是否出现过心脏病发作。因此,问题在于如何将现有数据合并到模型中,让该模型能够预测新患者在一年内是否会出现心脏病发作。

无监督学习

无监督学习可发现数据中隐藏的模式或内在结构。这种技术可根据未做标记的输入数据集得到推论。

聚类是一种最常用的无监督学习技术。这种技术可通过探索性数据分析发现数据中隐藏的模式或分组。聚类分析的应用包括基因序列分析、市场调查和对象识别。

例如,如果移动电话公司想优化他们手机信号塔的建立位置,则可以使用机器学习来估算依赖这些信号塔的人群数量。一部电话一次只能与一个信号塔通信,所以,该团队使用聚类算法设计蜂窝塔的最佳布局,优化他们的客户群组或集群的信号接收。

用于执行聚类的常用算法包括:k-均值和 k-中心点(k-medoids)、层次聚类、高斯混合模型、隐马尔可夫模型、自组织映射、模糊 c-均值聚类法和减法聚类。
什么是机器学习
图 2:聚类可找出数据中隐藏的模式。

如何确定使用哪种机器学习算法?

选择正确的算法看似难以驾驭——需要从几十种监督式和无监督机器学习算法中选择,每种算法又包含不同的学习方法。

没有最佳方法或万全之策。找到正确的算法只是试错过程的一部分——即使是经验丰富的数据科学家,也无法说出某种算法是否无需试错即可使用。但算法的选择还取决于您要处理的数据的大小和类型、您要从数据中获得的洞察力以及如何运用这些洞察力。
什么是机器学习
图 3:机器学习技术。

下面是选择监督式或者无监督机器学习的一些准则:

在以下情况下选择监督式学习:您需要训练模型进行预测(例如温度和股价等连续变量的值)或者分类(例如根据网络摄像头的录像片段确定汽车的技术细节)。
在以下情况下选择无监督学习:您需要深入了解数据并希望训练模型找到好的内部表示形式,例如将数据拆分到集群中。

 那么我们应该如何正确的去学习机器学习?

学习机器学习首先我们需要有计划、系统性地进行,在者就是需要系统化的学习方法和步骤

一下是我总结的学习方法和学习步骤

1. 建立数学和编程基础:

  • 学习基本的线性代数、微积分和概率统计等数学知识,这是理解机器学习算法的基础。
  • 掌握至少一门编程语言,如Python,用于实现和测试机器学习算法。

2. 学习基础概念:

  • 了解机器学习的基本概念,如监督学习、无监督学习、训练集和测试集等。

3. 选择学习资源:

4. 学习基本算法:

  • 从最基本的机器学习算法开始,如线性回归和逻辑回归,逐步扩展到更复杂的算法。

5. 实践项目:

  • 制定实际项目,应用所学的算法解决实际问题。这可以帮助您将理论知识应用到实际情境中。

6. 掌握深度学习:

  • 学习深度学习的基本概念,如神经网络、激活函数、反向传播等。
  • 了解深度学习框架,如TensorFlow、PyTorch,用于构建和训练深度学习模型。

7. 参与竞赛和项目:

  • 参加机器学习竞赛,如Kaggle,这可以提供实际问题和数据集,帮助您实践解决实际问题的能力。
  • 在GitHub上开源您的机器学习项目,展示您的技能和经验。

8. 持续学习和探索:

  • 机器学习领域不断发展,保持学习的态度,了解新的算法和技术。

9. 社区和交流:

  • 参与机器学习社区,如论坛、社交媒体和线下活动,与其他学习者和专业人士交流和分享。

10. 深入学习特定领域:

  • 根据兴趣选择特定领域,如计算机视觉、自然语言处理等,深入学习和实践。

相对应机器学习的学习资料

学习文档以及视频资料

书籍推荐

这里推荐两本学习ML必备书籍。周志华老师的《机器学习(西瓜书)》与李航老师的《统计学习方法》。

学习机器学习需要时间和耐心,重要的是不断地练习和实践,理解每个算法的原理以及何时适用。逐步地学习和探索,您将能够建立起扎实的机器学习技能。

为帮助更多对人工智能感兴趣的小伙伴们能够有效的系统性的学习以及论文的研究,小编特意制作整理了一份人工智能学习资料给大家,整理了很久,非常全面。

大致内容包括一些人工智能基础入门视频和文档+AI常用框架实战视频、计算机视觉、机器学习、图像识别、NLP、OpenCV、YOLO、pytorch、深度学习与神经网络等学习资料、课件源码、国内外知名精华资源、以及AI热门论文等全套学习资料。


 需要以上这些文中提到的资料,请点击此处→【人工智能全套完整VIP资料】 即可免费获取。

看完三件事❤️

  • 如果你觉得这篇内容对你还蛮有帮助,我想邀请你帮我三个小忙:
  • 点赞,转发,有你们的 『点赞和评论』,才是我创造的动力。
  • 关注作者公众号 『 python深度学习NLP 』,不定期分享原创知识。
  • 关注后回复【666】扫码即可获取学习资料包。
  • 同时可以期待后续文章ing🚀。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值