什么是数据
大概的意思是一些定量或者定性的属性,比如一个人的身高体重,年龄,性别,婚姻状况等等。
信息
信息比数据高一个层面,数据通过处理才叫信息。
Data Rich,Information Poor
数据非常多,但是从数据中挖掘出有用的数据非常少
什么是大数据
大数据的特点:high-volume,high-velocity,high-variety(数据量大、数据产生的速度快、数据的类型多样)
麦肯锡对于大数据的定义:传统的方法无法处理的数据,存也存不下,处理也无法处理的数据。
什么是数据挖掘
数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
数据挖掘是一个多学科交叉的邻域
知识发现 = 数据挖掘
数据帮助人们进行决策的过程
数据挖掘的过程
分类问题
数据挖掘的第一个问题是分类问题,先前有一些给出标签的样本,总结出每种类型的知识,然后利用这些知识对新的样本进行预测。
分类问题的核心是找出分界面(分界面可能是简单的直线或者多个直线或者是曲线)
如果模型过于复杂,可能导致过拟合的现象(图中的绿色分界线)
我们的数据集会被分成训练集和测试集,训练集用于生成模型,测试集用于预测模型。
聚类及其其他数据挖掘的方法
聚类与分类不同,聚类属于无监督学习,分类属于监督学习。
聚类将样本集分成由类似的对象组成的多个类别
线性回归
(参数和变量之间是线性的,而不是说最终的模型是线性的)
线性回归中的过拟合和欠拟合
数据的处理过程
数据清理—>数据整合—>数据规范化—>数据简化
并行计算
云计算
云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问, 进入可配置的计算资源共享池(资源包括网络,服务器,存储,应用软件,服务),这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。
简单来说,云计算就是我们使用的时候才付费,平时不占用你自己的资源。
并行计算
并行计算(Parallel Computing)是指同时使用多种计算资源解决计算问题的过程,是提高计算机系统计算速度和处理能力的一种有效手段。它的基本思想是用多个处理器来协同求解同一问题
大数据必须要并行计算。
数据挖掘需要 数据+模型+高性能计算 缺一不可
然而数据挖掘中,并不会有一个万能的算法,也不会有一个万能的参数,算法和参数的选择需要根据实际情况来确定。需要经验和不断的尝试来确定。