大数据
文章平均质量分 81
在终极的分析中,一切知识都是历史;
在抽象的意义下,一切科学都是数学;
在理性的基础上,所有的判断都是统计学。
程少亭
老百京好果汁公司
展开
-
Hive中的序列化和反序列化
3.1. SerDe是什么SerDe是Serializer、Deserializer的简称,目的是用于序列化和反序列化。序列化是对象转化为字节码的过程;而反序列化是字节码转换为对象的过程。Hive使用SerDe(和FileFormat)读取和写入行对象。将文件数据映射到表上 --反序列化#百度百科解释-->序列化 (Serialization)#是将对象的状态信息转换为可以存储或传输的形式的过程。#在序列化期间,对象将其当前状态写入到临时或持久性存储区。.#以后,可以通过从存储区中读取或原创 2021-10-19 01:36:39 · 649 阅读 · 0 评论 -
Hadoop之HDFS概念
文章目录1. HDFS设计目标2. HDFS重要特性1. NameNode概述2. DataNode概述3. HDFS的工作机制3.1 HDFS写数据流程3.2. HDFS读数据流程HDFS是Hadoop Distribute File System 的简称,意为:Hadoop分布式文件系统。是Hadoop核心组件之一1. HDFS设计目标硬件故障是常态, HDFS将有成百上千的服务器组成,每一个组成部分都有可能出现故障。因此故障的检测和自动快速恢复是HDFS的核心架构目标。HDFS上的原创 2021-10-10 17:05:45 · 414 阅读 · 2 评论 -
线性回归算法
2.1 线性回归简介学习目标了解线性回归的应用场景知道线性回归的定义1 线性回归应用场景房价预测销售额预测贷款额度预测线性关系举例:2 什么是线性回归2.1 定义与公式线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。特点:只有一个自变量的情况称为单变量回归,多于一个自变量情况的叫做多元回归。通用公式h(w)=w1x1+w2x2+w3x3+...+b=wTx原创 2021-09-10 20:32:41 · 1814 阅读 · 1 评论 -
什么是机器学习? (基础篇)
机器学习基础特征值:数据集中的一列(x)目标值:要预测的这一列(y)(连续值(0,1,2,3,4,5…)和离散值(类别型))样本:一行数据,数据集中有多少行数据就是有多少样本[0,1,2,3] 向量特征工程:决定模型预测的效果,对数据进行处理的过程特征提取特征转换降维数据集的划分(历史数据=>y)(7:3,8:2,9:1)训练集(进行训练得到模型)测试集(检测训练的模型效果)真实的y值y_true模型可以得到一个预测的有值y_predy_true和y原创 2021-09-10 19:45:48 · 283 阅读 · 0 评论