《数据挖掘:理论与算法》学习笔记(一)—走进数据科学

什么是数据

大概的意思是一些定量或者定性的属性,比如一个人的身高体重,年龄,性别,婚姻状况等等。

信息
信息比数据高一个层面,数据通过处理才叫信息。

Data Rich,Information Poor
数据非常多,但是从数据中挖掘出有用的数据非常少

什么是大数据

大数据的特点:high-volume,high-velocity,high-variety(数据量大、数据产生的速度快、数据的类型多样)

麦肯锡对于大数据的定义:传统的方法无法处理的数据,存也存不下,处理也无法处理的数据。

什么是数据挖掘

数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。

数据挖掘是一个多学科交叉的邻域
在这里插入图片描述

知识发现 = 数据挖掘

数据帮助人们进行决策的过程
在这里插入图片描述
数据挖掘的过程
在这里插入图片描述

分类问题

数据挖掘的第一个问题是分类问题,先前有一些给出标签的样本,总结出每种类型的知识,然后利用这些知识对新的样本进行预测。
在这里插入图片描述
分类问题的核心是找出分界面(分界面可能是简单的直线或者多个直线或者是曲线)
在这里插入图片描述
如果模型过于复杂,可能导致过拟合的现象(图中的绿色分界线)
在这里插入图片描述
我们的数据集会被分成训练集和测试集,训练集用于生成模型,测试集用于预测模型。

聚类及其其他数据挖掘的方法

聚类与分类不同,聚类属于无监督学习,分类属于监督学习。
聚类将样本集分成由类似的对象组成的多个类别
在这里插入图片描述

线性回归

(参数和变量之间是线性的,而不是说最终的模型是线性的)
在这里插入图片描述
线性回归中的过拟合和欠拟合
在这里插入图片描述

数据的处理过程

数据清理—>数据整合—>数据规范化—>数据简化
在这里插入图片描述

并行计算

云计算

云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问, 进入可配置的计算资源共享池(资源包括网络,服务器,存储,应用软件,服务),这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。

简单来说,云计算就是我们使用的时候才付费,平时不占用你自己的资源。

并行计算

并行计算(Parallel Computing)是指同时使用多种计算资源解决计算问题的过程,是提高计算机系统计算速度和处理能力的一种有效手段。它的基本思想是用多个处理器来协同求解同一问题

在这里插入图片描述
大数据必须要并行计算。

数据挖掘需要 数据+模型+高性能计算 缺一不可

然而数据挖掘中,并不会有一个万能的算法,也不会有一个万能的参数,算法和参数的选择需要根据实际情况来确定。需要经验和不断的尝试来确定。

  • 6
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值