2024年Linux最新浅谈数据挖掘与机器学习_数据挖掘和机器学习可以独立两门课(2)，2024年最新Linux运维之内存泄漏调试学习与总结

最新推荐文章于 2024-07-18 17:58:14 发布

JAVA工程师6

最新推荐文章于 2024-07-18 17:58:14 发布

阅读量574

点赞数 20

分类专栏：程序员文章标签：运维 linux 数据挖掘

本文链接：https://blog.csdn.net/m0_54206457/article/details/138595349

版权

程序员专栏收录该内容

116 篇文章 0 订阅

订阅专栏

最后的话

最近很多小伙伴找我要Linux学习资料，于是我翻箱倒柜，整理了一些优质资源，涵盖视频、电子书、PPT等共享给大家！

资料预览

给大家整理的视频资料：

给大家整理的电子书资料：

如果本文对你有帮助，欢迎点赞、收藏、转发给朋友，让我有持续创作的动力！

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化的资料的朋友，可以点击这里获取！

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

通常，假设我们的目标是一个function f，我们会给计算机提供一定的训练数据让其进行学习训练，每一次的学习会训练出一个hypothesis h，当h和f随着计算机不断学习越来越接近时，就说h越来越达到满意程度。而满意程度的度量是用误差e来度量的（针对不同情况有不同的方式）。更简单的说，机器学习就是通过数据训练找一个合适的目标函数的过程。而目前，机器学习学科应用到了大量的统计学知识，我们也称其为统计机器学习。

下面给大家解释一下必须知道的几个概念。

学习方式

根据数据类型的不同，对一个问题的建模有不同的方式。将算法按照学习方式分类是一个不错的想法，这样可以让人们在建模和算法选择的时候考虑能根据输入数据来选择最合适的算法来获得最好的结果。在机器学习领域，有几种主要的学习方式：

1.监督学习(supervised learning)
在监督式学习下，每组训练数据有一个明确的标识或结果，如对人按地域分类中的“新疆”、“上海”、“东别”等属于地域标识。在建立预测模型的时候，监督式学习建立一个学习过程，将预测结果与“训练数据”的实际结果进行比较，不断的调整预测模型，直到模型的预测结果达到一个预期的准确率。
这里写图片描述

上述示例中的分类问题和回归问题都属于监督学习范畴。其中常用的分类算法包括：决策树分类法(Decision Tree)（参考我之前的文章），朴素贝叶斯分类算法(Native Bayesian Classifier)、基于**支持向量机(SVM)**的分类器、神经网络法(Neural Network)、**k-最近邻法(k-nearest neighbor，kNN)**等。

2.非监督式学习(unsupervised learning)
在非监督式学习中，数据并不被标识，学习模型是为了推断出数据的一些内在结构。前面四个示例中的关联问题和聚类问题属于非监督学习的范畴。关联问题中常见算法包括Apriori(该算法基于Spark的并行化算法参考我之前文章)、FP-Growth以及Eclat等，而聚类问题中最经典的算法当属k-Means。
这里写图片描述

3.半监督式学习(semi-supervised learning)
在半监督式学习学习方式下，输入数据部分被标识，部分没有被标识，这种学习模型可以用来进行预测，但是模型首先需要学习数据的内在结构以便合理的组织数据来进行预测。应用场景包括分类和回归，算法包括一些对常用监督式学习算法的延伸，这些算法首先试图对未标识数据进行建模，在此基础上再对标识的数据进行预测。如**图论推理算法（Graph Inference）或者拉普拉斯支持向量机（Laplacian SVM.）**等。
这里写图片描述

4.强化学习(reinforcement learning)
在这种学习模式下，输入数据作为对模型的反馈，不像监督模型那样，输入数据仅仅是作为一个检查模型对错的方式，在强化学习下，输入数据直接反馈到模型，模型必须对此立刻作出调整。常见的应用场景包括动态系统以及机器人控制等。常见算法包括Q-Learning以及时间差学习(Temporal difference learning)
这里写图片描述

以上算法的核心思想及实现在后续的博文中我都会一一向大家讲解。

数据挖掘

在上一节，我们初步讨论了机器学习的基础知识、学习方式、常用算法等。这一节我们继续讨论数据挖掘的相关知识。

数据挖掘(Data mining)，又译为资料探勘、数据采矿。它是数据库知识发现（英语：Knowledge-Discovery in Databases，简称：KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统（依靠过去的经验法则）和模式识别等诸多方法来实现上述目标。

从上面的定义可以看出数据挖掘相对于机器学习而言是一个更加偏向应用的领域。实际上，数据挖掘是一门涉及面很广的交叉学科，在处理各种问题时，只要我们清楚了业务逻辑那么就可以将问题转换为挖掘问题。

数据挖掘的处理过程一般包括数据预处理（ETL、数据清洗、数据集成等），数据仓库（可以是DBMS、大型数据仓库以及分布式存储系统）与OLAP，使用各种算法（主要是机器学习的算法）进行挖掘以及最后的评估工作。

简言之，数据挖掘是一系列的处理过程，最终的目的是从数据中挖掘出你想要的或者意外收获的信息。下图展示了数据挖掘的众多应用领域。
这里写图片描述

数据挖掘与机器学习的关系

在上面我们分别介绍了机器学习与数据挖掘的基本概念，应用，相关算法等内容。接下来继续讨论两者的关系与异同。

统计学——1749年
人工智能——1940年
机器学习——1946年
数据挖掘——1980年

从历史的发展可以看出数据挖掘是一门新兴学科，其建立在强有力的知识体系之上，使用了大量的机器学习算法，同时根据上一节的叙述，数据挖掘也使用了一系列的工程技术。而机器学习则是以统计学为支撑的一门偏理论的学科，其不需要考虑诸如数据仓库，OLAP等应用工程技术。

简言之，机器学习是一门更加偏向理论性学科，其目的是为了让计算机不断学习找到接近目标函数f的假设h。而数据挖掘则是使用了包括机器学习算法在内的众多知识的一门应用学科，它主要是使用一系列处理方法挖掘数据背后的信息。

参考文献及推荐阅读

机器学习，Tom M.Mitchhell著；
数据挖掘概念与技术，[美] Micheling Kamber/ Jian Pei 等著；
http://blog.jobbole.com/77620/
http://blog.csdn.net/v_july_v/article/details/7577684

（by希慕，新浪微博：@希慕_North）

先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前在阿里

深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年最新Linux运维全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上运维知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

需要这份系统化的资料的朋友，可以点击这里获取！

图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新**

需要这份系统化的资料的朋友，可以点击这里获取！

JAVA工程师6

关注

20
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
2024年Linux最新浅谈数据挖掘与机器学习_数据挖掘和机器学习可以独立两门课(2)，2024年最新Linux运维之内存泄漏调试学习与总结

最近很多小伙伴找我要Linux学习资料，于是我翻箱倒柜，整理了一些优质资源，涵盖视频、电子书、PPT等共享给大家！
复制链接

扫一扫