weixin_37889021-CSDN博客

原创深入浅出Hive（二）

1. Hive工作原理详解1.1 部件元存储（Metastore）：存储“系统目录以及关于表、列、分区等的元数据”的组件，可以通过thrift接口查询得到，由于需要快速的提供到编译器中，所以使用关系型数据库管理系统（RDBMS）。驱动（Driver）：控制HiveQL生命周期的组件，当HiveQL查询穿过Hive时。该驱动管理着会话句柄以及任何会话的统计。查询编译器（Query Compiler）...

2018-04-24 16:58:14 318

原创深入浅出Hive（一）

1. Hive简介1.1 Hive数据仓库软件提供对存储在分布式中的大型数据集的查询和管理，它本身是建立在Apache Hadoop之上，主要提供以下功能：它提供了一系列的工具，可用来对数据进行提取/转化/加载（ETL）；是一种可以存储、查询和分析存储在HDFS（或者HBase）中的大规模数据的机制；查询是通过MapReduce来完成的，但并不是所有的查询都要通过MapReduce完成；因此，Hi...

2018-04-20 18:34:28 173

原创《统计学习方法》 - 决策树

5.1 决策树模型从根节点开始，对实例进行测试，将测试完的实例分布到子节点，之后递归的对实例进行测试，直至达到叶节点并将实例分配到叶节点的类中互斥且完备：每一个实例都被一条路径或一项规则所覆盖，且只被一条路径或一项规则所覆盖对特征空间进行划分，每一个小矩形都是一个单元，类的条件概率分布如下图所示当P(Y=1 | X=c) > 0.5时，则认定该单元为属于正类

2018-02-05 23:45:23 142

原创《统计学习方法》- 朴素贝叶斯法

4.1 朴素贝叶斯法的学习与分类朴素贝叶斯对条件概率分布做了独立性假设如下：该独立性假设为在类确定的条件下，不同特征是独立的（可能会降低一定的分类准确率）贝叶斯定理：后验概率最大化的含义4.2 朴素贝叶斯法的参数估计极大似然估计通过样本数据来得到所求参数满足所需条件时最可能的概率使用极大似然估计可能出现概率

2018-02-05 17:34:11 130

原创《统计学习方法》 - k近邻法

3.1 k近邻法算法对于一个尚未分类的实例，在数据集中找到与这个实例最接近的k个实例，之后将该未分类实例归入k个实例中其所在最多的那个类别输入：数据集T；类别向量；待分类实例x输出：x所在的类别实现过程如下：（1）根据距离向量的指示，找到距离该实例最近的k个实例（2）在这k个实例中，根据分类决策规则（如多数表决）决定x的类别3.2 k近邻法模型

2018-02-05 15:25:30 213

原创《统计学习方法》 - 感知机

2.1 感知机模型超平面w·x+b=0将特征空间划分为两个部分，从而将特征向量分为正负两类2.2 感知机学习策略前提条件：数据集线性可分输入空间一点到超平面的距离为误分类数据点到平面距离为：2.3 感知机学习算法求代价函数L(w,b)最小值2.3.1 感知机学习算法原始形式沿梯度下降方向求解最小值2

2018-02-05 12:06:44 211

原创《统计学习方法》- 概念介绍

1.1 基本概念输入空间映射出特征空间，每一个具体的输入是一个实例，特征空间由特征向量组成输入空间到输出空间的映射是模型，模型的集合称为假设空间输入和输出对(x, y)称为样本或样本点X和Y符合联合概率分布预测系统对于给定的测试样本集中的输入xN+1给出对应的输出1.2 统计学习三要素1.2.1 模型非概率模型有决策函数Y=f(X)表示，概率

2018-02-05 08:34:49 222

weixin_37889021的博客