几个概念

计算机=计算+信息
程序=算法+数据结构
信息:文件->数据库->数据仓库->大数据
计算:冯诺依曼->算法->机器学习
技术层次结构:OS 网络 数据库 编译 安全 ==》机器视觉 分布式 数据挖掘 自然语言处理 机器学习
总体趋势:机器更像人,能听、能看、能说、能尝

BI=ETL(Extract-Transform-Load)+data mining + data present

数据挖掘可以挖出来什么?
    1、特征:(大客户有什么特点?)花费5000美元以上的顾客特征是 年龄在40~50岁、有工作、有很好的信用等级。
    2、区分:(顾客和非顾客有什么区别)频繁购买计算机产品的顾客80%在20~40岁之间,受过大学教育;而不经常购买这种产品的顾客60%或者年龄太大或者太年青,没有大学学位。
    3、关联分析:买电脑和买软件有什么关系?买电脑的,同时买software的有60%,所有事物中10%同时包含2者
    4、分类(事先知道类别)和预测,模拟人积累经验和处理新事物的过程----机器学习
    5、聚类 相关的数据归为一类,一般是分类的前提条件
    6、奇异点分析(欺诈、安全入侵?):可以使用概率分布、离中心距离、主要特征差别
    7、演变分析:基于时间的变化趋势

数据仓库:分析用的,统一集成历史数据的,面向主题的,非易失的数据库。
事实表里面存储的一般是数字,一般没有主键,数据量极大;数据的解释和整理由维度表来实现。事实表要记录的足够细,以至于可以满足任何维度和层次的汇总;维度表要能够满足所有部门的查看数据的角度要求。



概率与统计:个体上不确定的东西在宏观上有一定的规律,即统计确定性。
方差表示均匀程度;协方差表示2个随机变量的相关程度,越小越没有关系
大数定律:实验次数足够多时可以用频率代替概率;
中心极限定理:多个相互独立的因素来共同影响一个概率时,一般遵守正态分布
回归分析:分析变量之间的关系,自变量确定时,因变量取值具有随机性


统计学习方法的基本假设:只要测试的数据是真实的,则对于类似的过程,一定是满足相同的概率的分布的。即训练集 与测试集 是同分布的。这种方式不是直接给出变量之间的函数关系,而是拟合出分布函数。使用的是宏观的定性分析,而不是微观的定量分析。验证时,x取定,找到y的概率最大值。

统计学习方法:
感知机:找到一个平面,刚好可以将点分开,损失函数:到平面的总距离最小
K临近法:从训练集周围的k个邻居来划分测试数据的类别,是利用训练集来在空间上划分随机变量
朴素贝叶斯:通过条件概率得到概率密度函数,之后来输出后验概率值最大的y(直接生成模型)
决策树:从训练数据集得到了每个规则的if组合,测试时尽量避免过多的消耗,本质是把所有的关键情况归纳成规则。logistic regression 和最大熵模型:利用回归分析找出函数的映射

机器学习方法:
    回归分析
    神经网络:
        处理过程分为多个层,前一层的结果作为下一层的输入(前一层的每一个输入后一层的每一个),每个神经元节点都是一个线性回归。拆分是从粗到细,合并是从细到粗。问题:计算量太大
    支持向量机
    无监督算法 聚类算法 K-Means算法 主要是计算数据间的距离
    降维算法 PCA算法(即主成分分析算法) 去除数据特征的重复,并且加速计算
    高斯判别,朴素贝叶斯,决策树等等算法。

监督学习算法:线性回归,逻辑回归,神经网络,SVM
无监督学习算法:聚类算法,降维算法
深度学习 基于深度神经网络(多个隐藏层)的分析方法:速度更快、更能获取数据的特征(适合于模式识别)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值