通俗的机器学习介绍

摘要:在本文中,我将描述数据分析是如何与机器学习相关的,还将揭开机器学习中 的一些荒唐和错误的说法,并解释机器学习的过程和类型。


如果你不是一个人工智能专家,不要担心,我不会提及线性回归和k-均值聚类。


数据分析和机器学习


如果你认为大数据仅仅是关于SQL语句查询和海量的数据的话,那么别人也会理解你的,但是大数据真正的目的是通过对数据的推断,从数据中获取价值、从数据中发现有用的东西。例如,“如果我降低5%的价格,我将增加10%的销售量。”


数据分析是重要的技术,包括如下方面:


  • 描述性分析:确定所发生的事情。这通常涉及到描述发生了什么现象的报告。例如,用这个月的销售额与去年同期进行比较的结果。

  • 特征性分析:解释现象发生的原因,这通常涉及使用带有OLAP技术的控制台用以分析和研究数据,根据数据挖掘技术来找到数据之间的相关性。

  • 预测性分析:评估可能发生的事情的概率。这可能是预测性分析被用来根据你的工作性质、个人兴趣爱好,认为你是一个潜在的读者,以便能够链接到其他的人。


机器学习适合于预测性分析。

 

640?wx_fmt=jpeg


什么是机器学习


机器学习是人工智能的一个子集,即用机器去学习以前的经验。与传统的编程不同,开发人员需要预测每一个潜在的条件进行编程,一个机器学习的解决方案可以有效地基于数据来适应输出的结果。


一个机器学习的算法并没有真正地编写代码,但它建立了一个关于真实世界的计算机模型,然后通过数据训练模型。


机器学习如何工作?


垃圾邮件过滤是一个很好的例子,它利用机器学习技术来学习如何从数百万封邮件中识别垃圾邮件,其中就用到了统计学技术。


例如,如果每100个电子邮件中的85个,其中包括“便宜”和“ *哥”这两个词的邮件被认为是垃圾邮件,我们可以说有85%的概率,确定它是垃圾邮件。并通过其它几个指标(例如,从来没给你发送过邮件的人)结合起来,利用数十亿个电子邮件进行算法测试,随着训练次数不断增加来提升准确率。


事实上,谷歌表示它现在已经可以拦截99.99%左右的垃圾邮件。


机器学习实例


一般包括以下几个方面:


  • 目标影响:主要针对Google和Facebook的目标广告,基于个人兴趣爱好,并通过Netflix推荐电影,还通过亚马逊推荐购物;

  • 信用评分:银行使用收入数据,从你的居住地、你的年龄和婚姻状况来预测你是否会拖欠贷款;

  • 信用卡欺诈检测:用于根据你之前一些可能的消费习惯,在线禁止具有欺诈行为的信用卡或借记卡的使用;

  • 购物篮分析:根据数以百万个类似顾客的消费习惯,用来预测你更可能使用哪些特殊优惠政策;


在一个有争议的案例:美国零售商对使用了25种不同的健康和化妆品产品的顾客的购物篮进行分析,来成功地预测妇女怀孕,包括非常准确的预产期。然而却事与愿违,当一个年轻女孩的父亲抱怨说,在女儿被怀孕相关的特殊优惠轰炸后,目的就变成了鼓励未成年少女怀孕。

 

你需要什么


事实上,你是在寻找数据中的关联性,但你需要一些领域的专业知识来验证结果。计算机可以找到一个模式,但是只有专家才能验证它是否具有关联性。


总之,以下是你所需要的:


  • 目标.你正在试图解决的问题。例如,信用卡被盗了吗?股票价格会上涨还是下跌?用户近期最喜欢哪部电影?

  • 大量数据. 例如,为了准确预测房屋的价格,你需要详细列出的历史价格。

  • 专家.你需要一个知道正确答案的领域专家来验证所产生的结果,并确认什么时候模型足够精确。

  • 模式.你在寻找数据中的模式。如果没有模式,你可能会有错误的或者不完整的数据。


机器学习的类型


预测性分析试图基于历史数据来预测未来的结果,最常用的方法被称为监督学习。

 

640?wx_fmt=jpeg


机器学习的类型有:


  • 监督学习:当我们需要从过去的数据中知道正确答案的时候,但是还需要预测未来的结果。例如,利用过去的房价来预测当前和未来的价格。有效地使用基于试错的统计改进过程,机器依靠对监督者提供的一组值的测试结果来逐步提高准确性。

  • 无监督学习:这里没有明确的正确答案,但我们想从数据中有新的发现。最常用于对数据进行分类或分组,例如,在Spotify上对音乐分类,来帮助推荐你可能想听的歌曲或是专辑。然后,他们将听众分类,看他们是否更可能愿意听Radiohead或Justin Bieber。

  • 强化学习:不需要一个领域专家,但需要不断地向预定目标前进。这是一种经常部署神经网络的技术,例如, AphaGo在DeepMind中跟自己打了一百万场比赛,最终成为了世界冠军。


机器学习过程


不同于未来通过机器学习下象棋的场景,目前大多数机器学习是相当麻烦的,在下面的图表中进行了说明:

 

640?wx_fmt=jpeg


在未来很可能机器学习将会被应用到帮助加快过程,特别是在数据收集和清洗领域,但主要步骤仍然存在以下方面:


  • 定义问题:正如我在另一篇文章中所指出的那样,机器学习总是从一个明确的问题和目标开始;

  • 收集数据:适合的数据的数量和种类越多,机器学习模型就会变得越精确。这些数据可以来自电子表格、文本文件和数据库,除了商业上可用的数据源之外;

  • 准备数据:这包括数据的清理和解析。删除或纠正异常值(失控的错误值);这经常占用总的时间和工作量的60%以上,然后将数据分成两个不同的部分,即练数据和测试数据;

  • 训练模型:针对一组训练数据—用于识别数据中的模式或相关性,或者用于做预测,同时使用重复的测试和误差改进方法来逐步地提高模型的精度;

  • 评估模型:通过比较结果与测试数据集的准确度来评估模型。重要的是不要对用于训练系统的数据进行模型评估,以确保无偏差的和独立的测试;

  • 部署和改进:这可以涉及到尝试完全不同的算法或者收集更多种类或更大数量的数据。例如,你可以通过使用房屋所有者提供的数据来预估今后的房屋升值空间,从而提高房价预测的准确度;


综上所述,大多数机器学习过程实际上是循环的和连续的,因为更多的数据被添加或者情况会有所变化,因为世界从来不会静止不动,并且总是有改进和提高的空间。


总结


下图说明了机器学习系统所使用的关键策略:

 

640?wx_fmt=jpeg


总之,任何机器学习系统的关键部分就是数据。考虑到额外的算法、巧妙的编程和大量的更精确的数据的选择,大数据每次都是胜利者。


阿里云云栖社区组织翻译。

文章原标题《machine learning in plain english》

作者:John Ryan

译者:奥特曼,审校:袁虎。


640?wx_fmt=png


end

关于TensorFlow你需要了解的9件事

阿里云Redis多线程性能提升思路解析

程序员精选:TensorFlow和ML前5名的课程

阿里云总监课第二期:如何打造智能语音交互爆款产品?

更多精彩

【6层】一字型框架办公楼(含建筑结构图、计算书) 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。
深度学习是机器学习的一个子领域,它基于人工神经网络的研究,特别是利用多层次的神经网络来进行学习和模式识别。深度学习模型能够学习数据的高层次特征,这些特征对于图像和语音识别、自然语言处理、医学图像分析等应用至关重要。以下是深度学习的一些关键概念和组成部分: 1. **神经网络(Neural Networks)**:深度学习的基础是人工神经网络,它是由多个层组成的网络结构,包括输入层、隐藏层和输出层。每个层由多个神经元组成,神经元之间通过权重连接。 2. **前馈神经网络(Feedforward Neural Networks)**:这是最常见的神经网络类型,信息从输入层流向隐藏层,最终到达输出层。 3. **卷积神经网络(Convolutional Neural Networks, CNNs)**:这种网络特别适合处理具有网格结构的数据,如图像。它们使用卷积层来提取图像的特征。 4. **循环神经网络(Recurrent Neural Networks, RNNs)**:这种网络能够处理序列数据,如时间序列或自然语言,因为它们具有记忆功能,能够捕捉数据中的时间依赖性。 5. **长短期记忆网络(Long Short-Term Memory, LSTM)**:LSTM 是一种特殊的 RNN,它能够学习长期依赖关系,非常适合复杂的序列预测任务。 6. **生成对抗网络(Generative Adversarial Networks, GANs)**:由两个网络组成,一个生成器和一个判别器,它们相互竞争,生成器生成数据,判别器评估数据的真实性。 7. **深度学习框架**:如 TensorFlow、Keras、PyTorch 等,这些框架提供了构建、训练和部署深度学习模型的工具和库。 8. **激活函数(Activation Functions)**:如 ReLU、Sigmoid、Tanh 等,它们在神经网络中用于添加非线性,使得网络能够学习复杂的函数。 9. **损失函数(Loss Functions)**:用于评估模型的预测与真实值之间的差异,常见的损失函数包括均方误差(MSE)、交叉熵(Cross-Entropy)等。 10. **优化算法(Optimization Algorithms)**:如梯度下降(Gradient Descent)、随机梯度下降(SGD)、Adam 等,用于更新网络权重,以最小化损失函数。 11. **正则化(Regularization)**:技术如 Dropout、L1/L2 正则化等,用于防止模型过拟合。 12. **迁移学习(Transfer Learning)**:利用在一个任务上训练好的模型来提高另一个相关任务的性能。 深度学习在许多领域都取得了显著的成就,但它也面临着一些挑战,如对大量数据的依赖、模型的解释性差、计算资源消耗大等。研究人员正在不断探索新的方法来解决这些问题。
1、资源项目源码均已通过严格测试验证,保证能够正常运行;、 2项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值