《数据挖掘：理论与算法》学习笔记（一）—走进数据科学

最新推荐文章于 2023-05-05 18:28:41 发布

时光机丶

最新推荐文章于 2023-05-05 18:28:41 发布

阅读量2.7k

点赞数 6

分类专栏：数据挖掘学习笔记《数据挖掘：理论与算法》学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39293290/article/details/90082219

版权

数据挖掘学习笔记同时被 2 个专栏收录

10 篇文章 4 订阅

订阅专栏

《数据挖掘：理论与算法》学习笔记

10 篇文章 5 订阅

订阅专栏

什么是数据

大概的意思是一些定量或者定性的属性，比如一个人的身高体重，年龄，性别，婚姻状况等等。

信息
信息比数据高一个层面，数据通过处理才叫信息。

Data Rich，Information Poor
数据非常多，但是从数据中挖掘出有用的数据非常少

什么是大数据

大数据的特点：high-volume，high-velocity，high-variety（数据量大、数据产生的速度快、数据的类型多样）

麦肯锡对于大数据的定义：传统的方法无法处理的数据，存也存不下，处理也无法处理的数据。

什么是数据挖掘

数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统（依靠过去的经验法则）和模式识别等诸多方法来实现上述目标。

数据挖掘是一个多学科交叉的邻域
在这里插入图片描述

知识发现 = 数据挖掘

数据帮助人们进行决策的过程
在这里插入图片描述
数据挖掘的过程

分类问题

数据挖掘的第一个问题是分类问题，先前有一些给出标签的样本，总结出每种类型的知识，然后利用这些知识对新的样本进行预测。
在这里插入图片描述
分类问题的核心是找出分界面（分界面可能是简单的直线或者多个直线或者是曲线）

如果模型过于复杂，可能导致过拟合的现象（图中的绿色分界线）

我们的数据集会被分成训练集和测试集，训练集用于生成模型，测试集用于预测模型。

聚类及其其他数据挖掘的方法

聚类与分类不同，聚类属于无监督学习，分类属于监督学习。
聚类将样本集分成由类似的对象组成的多个类别
在这里插入图片描述

线性回归

（参数和变量之间是线性的，而不是说最终的模型是线性的）
在这里插入图片描述
线性回归中的过拟合和欠拟合

数据的处理过程

数据清理—>数据整合—>数据规范化—>数据简化
在这里插入图片描述

并行计算

云计算

云计算是一种按使用量付费的模式，这种模式提供可用的、便捷的、按需的网络访问，进入可配置的计算资源共享池（资源包括网络，服务器，存储，应用软件，服务），这些资源能够被快速提供，只需投入很少的管理工作，或与服务供应商进行很少的交互。

简单来说，云计算就是我们使用的时候才付费，平时不占用你自己的资源。

并行计算

并行计算（Parallel Computing）是指同时使用多种计算资源解决计算问题的过程，是提高计算机系统计算速度和处理能力的一种有效手段。它的基本思想是用多个处理器来协同求解同一问题

在这里插入图片描述
大数据必须要并行计算。

数据挖掘需要 数据+模型+高性能计算 缺一不可

然而数据挖掘中，并不会有一个万能的算法，也不会有一个万能的参数，算法和参数的选择需要根据实际情况来确定。需要经验和不断的尝试来确定。

关注

6
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
《数据挖掘：理论与算法》学习笔记（一）—走进数据科学

什么是数据大概的意思是一些定量或者定性的属性，比如一个人的身高体重，年龄，性别，婚姻状况等等。信息信息比数据高一个层面，数据通过处理才叫信息。Data Rich，Information Poor数据非常多，但是从数据中挖掘出有用的数据非常少什么是大数据大数据的特点：high-volume，high-velocity，high-variety（数据量大、数据产生的速度快、数据的类型...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。