几个概念

最新推荐文章于 2022-02-26 17:44:04 发布

iteye_14888

最新推荐文章于 2022-02-26 17:44:04 发布

阅读量133

点赞数

分类专栏：技术随笔总结整理文章标签：数据库人工智能数据结构与算法

本文链接：https://blog.csdn.net/iteye_14888/article/details/82675946

版权

总结整理同时被 2 个专栏收录

43 篇文章 0 订阅

订阅专栏

技术随笔

16 篇文章 0 订阅

订阅专栏

计算机=计算+信息
程序=算法+数据结构
信息：文件->数据库->数据仓库->大数据
计算：冯诺依曼->算法->机器学习
技术层次结构：OS 网络数据库编译安全 ==》机器视觉分布式数据挖掘自然语言处理机器学习
总体趋势：机器更像人，能听、能看、能说、能尝

BI=ETL（Extract-Transform-Load）+data mining + data present

数据挖掘可以挖出来什么？
    1、特征：（大客户有什么特点？）花费5000美元以上的顾客特征是年龄在40～50岁、有工作、有很好的信用等级。
    2、区分：（顾客和非顾客有什么区别）频繁购买计算机产品的顾客80%在20～40岁之间，受过大学教育；而不经常购买这种产品的顾客60%或者年龄太大或者太年青，没有大学学位。
    3、关联分析：买电脑和买软件有什么关系？买电脑的，同时买software的有60%，所有事物中10%同时包含2者
    4、分类（事先知道类别）和预测，模拟人积累经验和处理新事物的过程----机器学习
    5、聚类相关的数据归为一类，一般是分类的前提条件
    6、奇异点分析（欺诈、安全入侵？）：可以使用概率分布、离中心距离、主要特征差别
    7、演变分析：基于时间的变化趋势

数据仓库:分析用的，统一集成历史数据的，面向主题的，非易失的数据库。
事实表里面存储的一般是数字，一般没有主键，数据量极大；数据的解释和整理由维度表来实现。事实表要记录的足够细，以至于可以满足任何维度和层次的汇总；维度表要能够满足所有部门的查看数据的角度要求。

概率与统计:个体上不确定的东西在宏观上有一定的规律，即统计确定性。
方差表示均匀程度；协方差表示2个随机变量的相关程度，越小越没有关系
大数定律：实验次数足够多时可以用频率代替概率；
中心极限定理：多个相互独立的因素来共同影响一个概率时，一般遵守正态分布
回归分析：分析变量之间的关系，自变量确定时，因变量取值具有随机性

统计学习方法的基本假设：只要测试的数据是真实的，则对于类似的过程，一定是满足相同的概率的分布的。即训练集与测试集是同分布的。这种方式不是直接给出变量之间的函数关系，而是拟合出分布函数。使用的是宏观的定性分析，而不是微观的定量分析。验证时，x取定，找到y的概率最大值。

统计学习方法：
感知机：找到一个平面，刚好可以将点分开，损失函数：到平面的总距离最小
K临近法：从训练集周围的k个邻居来划分测试数据的类别，是利用训练集来在空间上划分随机变量
朴素贝叶斯：通过条件概率得到概率密度函数，之后来输出后验概率值最大的y（直接生成模型）
决策树:从训练数据集得到了每个规则的if组合，测试时尽量避免过多的消耗,本质是把所有的关键情况归纳成规则。logistic regression 和最大熵模型:利用回归分析找出函数的映射

机器学习方法:
    回归分析
    神经网络：
        处理过程分为多个层，前一层的结果作为下一层的输入（前一层的每一个输入后一层的每一个），每个神经元节点都是一个线性回归。拆分是从粗到细，合并是从细到粗。问题：计算量太大
    支持向量机
    无监督算法聚类算法 K-Means算法主要是计算数据间的距离
    降维算法 PCA算法(即主成分分析算法) 去除数据特征的重复，并且加速计算
    高斯判别，朴素贝叶斯，决策树等等算法。

监督学习算法：线性回归，逻辑回归，神经网络，SVM
无监督学习算法：聚类算法，降维算法
深度学习基于深度神经网络（多个隐藏层）的分析方法：速度更快、更能获取数据的特征（适合于模式识别）