机器学习浅谈

最新推荐文章于 2022-07-02 19:16:10 发布

Galen5hk

最新推荐文章于 2022-07-02 19:16:10 发布

阅读量713

点赞数

分类专栏： Machine Learning 文章标签：机器学习机器学习引言人工智能

本文链接：https://blog.csdn.net/Galen5hk/article/details/54017356

版权

Machine Learning 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本文探讨了机器学习的历史、本质及其在大数据背景下的应用。机器学习作为人工智能的一个分支，通过数据挖掘寻找规律，用于信用卡审批、防止欺诈等领域。文中提到了监督学习与无监督学习的概念，强调理解数据和选择合适算法的重要性。引用资源如Coursera的机器学习课程和《统计学习方法》等，为读者提供了学习路径。

摘要由CSDN通过智能技术生成

机器学习(Machine Learning)

人在对世界的探索中，总有一种动力去解放自己。从蒸汽机解放人的体力，到电子计算机辅助人计算等，都是为了让人能从直接的劳动中抽离出来，可以从事更高级更富有创新的活动，抑或是享受生活。总之，我们不断的探索，就是为了让人更加像人而不是机器。诚然，机器那就不再那么低能死板，它该壮实起来。

从图灵提出构想，到早期电子计算机的出现，再到现代的超大规模计算机群，小型化，云化。我们感受到了无处不在的计算，而正是这些计算让人的肉体与大脑得到部分解放，使机器具有了多一份“智能”。

自古就有卜卦观天象来指导人们的劳作生活，经过长期与世界交互，人们学会了如何较好的生存，并积累和传承了前人的经验，用经验来指导自己的行动。文字的出现让很多宝贵的东西得以保留，后人可以借鉴前人的记载加以利用，这也是青出于蓝而胜于蓝的原因。那时候还没有规整的数据，相对完整的数据还是计算机出来以后，美国人为了人口普查而借用计算机存储与分析数据，这才让人们的生产与生活活动以电子的数据方式存储起来，从而被其他机构研究来指导政策与规划。

现在随处可见的手机，电脑，传感器等时时刻刻都记录了人相关数据。譬如，微信聊天，腾讯公司会尽职地将你所有的记录包括语音都巧妙地保存在一个你够不着的地方。这些很多是文字信息和地理信息，也就足以构成宝贵的数据土壤，可以在这片土壤上挖掘出更多有意义的东西（我们可以叫它知识或者规律）。它可以作舆情分析，个人行为追踪，兴趣爱好的聚类等等，可以辅助治安或者提供商业服务。

如今电子设备的大规模普及，人们已经留下出足够多的使用记录或痕迹。很多是自己主动留下的，也有不少是系统默认记录的，抑或是你行走在大街上被安保的摄像头无意间拍到......总之，记录人类的活动以及思维已经悄然变得司空见惯，它们都很大程度上数据化，且呈现指数级的成长着那片土壤——大数据。Google这就这样一家融入大家生活的公司.

数据是土壤，还不是所谓的宝。如何变现成宝，让冷冰冰背后留下数据可以指导生活，聪明决策，它还需要我们准备好铲子锄头，去挖掘（Data Mining）。

众多尝试中，机器学习就是一把可用的铲子，学科很年轻不像我们的历史文学数据等那么悠久历史，但是在近几年的深度学习取得不错成绩后开始变得更加吸引大家去了解。

机器学习的本质是一门应用于数据土壤的年轻科学技术，是人们利用数据求解与计算机的运算来探究大量已有数据的规律，让数据变得有意义（machine learning, the application and science of algorithms that makes sense of data), 或者说是让土壤可以生长出花花草草,参天大树，而不是遗弃了。这样做，不是仅为商业金钱用途，更多的是让人进一步解放自己。

机器学习作为人工智能的分支，已经有很多技术应用于生活中，譬如信用卡的批核&防止盗刷，尤其以一分支名为深度学习网络引来大波人的兴趣。那些接下来，就浅略低介绍下机器学习。数据是机器学习的对方，就如食材，巧妇难为无米之炊。早期有表格，SQL数据库等非常规整的数据，详细的记录了下我们熟悉的关系型数据，每一行就是一条记录，每一列都代表预先设定的特征或者属性值（可以是连续的数值，也可以是离散的标签）。观察数据是最先要做的，我们需要知道自己想要从这推数据中获取什么？这个非常重要！小学我们就被考核1+（）=3，中学我们开始接触到一元一次方程y=kx+b(k叫斜率,b为截距),这些问题都有一个共性，那就是模型已知，通常告诉你一/二个量，然你求解另外一个量。大学有门课叫信号系统，研究的就是Y=f(x)，一共三个量：输入x，系统或者信道f，输出y。在任意给定2个量的时候让你估计剩下的那一个量。这些和我们即将要研究的机器学习都密切相关。这几个问题就和机器学习中的监督学习的回归分析有关。这里就有必要列下机器学习的框架是如何分类的。按照所求问题量化后是否有标签，有标签或者值就叫做监督学习Supersized Learning，标签或值是连续的，则称之为回归问题Regression，离散则称之为分类问题Classification；反之无监督学习Unsupervised Learning，监督学习一般又应用于聚类Clustering,压缩Compression等。还有一类半监督学习和增强学习。在后续的学习笔记中陆续更新各个类别的算法剖析。

We learned thatsupervised learning is composed of two important subfields:classification and regression. While classification models allow us to categorize objects into known classes, we can use regression analysis to predict the continuous outcomes of target variables.Unsupervised learning not only offers useful techniques fordiscovering structures in unlabeled data,but it can also be useful fordata compression in feature preprocessing steps.

借用Python Machine Learning作者Sebastian Raschka说的， “天下没有免费午餐，我们无法渴求一种技术可以适用于所有问题”，机器学习这门学科恰好说明了这点。它有众多算法，每一种都有各自的假设与觉解问题的边界，对各种算法的适用性纯熟于心需要时间实践。但是也不用悲观，至少你已经有意识透过数据去优化你的策略，这样会让你更加smart。

Over the past 50 years the study of Machine Learning has grown from the efforts of a handful of computer engineers exploring whether computers could learn to play games, and a field of Statistics that largely ignored computational considerations, to a broad discipline that has produced fundamental statistical-computational theories of learning processes, has designed learning algorithms that are routinely used in commercial systems for speech recognition, computer vision, and a variety of other tasks, and has spun off an industry in data mining to discover hidden regularities in the growing volumes of online data.[cited from School of Computer Science, Carnegie Mellon University, Pittsburgh, PA, USA]

最后附上机器学习的roadmap, 网上也有很多它的学习资料可供大家学习:如 coursera的当红课程machine learning，Stanford CS229，李航的《统计学习方法》