数据开发
无香菜不欢
多读书,少说话
到点睡觉,按时吃饭。
展开
-
Spark MLid之线性回归
线性回归线性回归,对于初学者而言(比方说我)比较难理解,其实换个叫法可能就能立马知道线性回归是做什么的了:线性拟合。所谓拟合如下图所示:线性拟合,顾名思义拟合出来的预测函数是一条直线,数学表达如下:h(x)=a0+a1x1+a2x2+..+anxn+J(θ)h(x)=a0+a1x1+a2x2+..+anxn+J(θ)其中h(x)为预测函数,ai(i=1,2,..,n)为估...转载 2019-10-20 14:37:20 · 342 阅读 · 0 评论 -
hdfs的四大机制详解
心跳机制目的:为了实现主节点和从节点的通信重点:两个参数和namenode判定datanode宕机所需的时间因为hdfs具有心跳机制,所以在搭建分布式集群时,必须进行时间同步。心跳机制的原因:namenode是集群中的老大,负责进行任务分工,要进行分工,必须知道各个datanode结点的存活状态。namenode怎么 知道datanode的存活状态?datanode每隔一定...原创 2019-09-26 13:32:52 · 804 阅读 · 0 评论 -
Hadoop HA 架构搭建流程以及踩坑记录
前期准备(三个节点)1.修改IPvim /etc/sysconfig/network-scripts/ifcfg-eth0DEVICE="eth0"BOOTPROTO="static"NM_CONTROLLED="yes"ONBOOT="yes"TYPE="Ethernet"UUID="ce22eeca-ecde-4536-8cc2-ef0dc36d4a8c"IPAD...原创 2019-09-26 09:52:56 · 597 阅读 · 0 评论 -
Hbase的技术细节
Hbase介绍 一、Hbase介绍1、Hbase简介Hbase是分布式、面向列的开源数据库(其实准确的说是面向列族)。HDFS为Hbase提供可靠的底层数据存储服务,MapReduce为Hbase提供高性能的计算能力,Zookeeper为Hbase提供稳定服务和Failover机制,因此我们说Hbase是一个通过大量廉价的机器解决海量数据的高速存储和读取的分布式数据库解决方案。...原创 2019-09-19 16:53:30 · 229 阅读 · 0 评论 -
Hive 概述以及优化
概述Hive是一个构建在Hadoop之上的数据仓库软件,它可以使已经存储的数据结构化,它提供类似sql的查询语句HiveQL对数据进行分析处理。 Hive将HiveQL语句转换成一系列成MapReduce作业并执行。hive强大之处不要求数据转换成特定的格式,而是利用hadoop本身InputFormat API来从不同的数据源读取数据,同样地使用OutputFormat API将数据写成...原创 2019-09-19 10:17:15 · 118 阅读 · 0 评论 -
Yarn架构与流程浅析
Yarn介绍MapReduce 早期的 JobTracker/TaskTracker 机制在可扩展性,内存消耗,线程模型,可靠性和性能存在较大的缺陷, 为从根本上解决框架的性能瓶颈,从 0.23.0 版本开始,Hadoop 的 MapReduce 框架完全重构,新的 Hadoop MapReduce 框架命名为Yarn。YARN的最基本思想是将JobTracker的两个主要职责:资源管理...原创 2019-09-18 20:12:50 · 380 阅读 · 1 评论 -
MapReduce中各个阶段的分析(转自道法—自然老师)
MapReduce中各个阶段的分析:在MapReduce的各个阶段:在文件被读入的时候调用的是Inputformat方法读入的。inputformat——>recordreader——>read(一行)。在这里读入一行,返回的是(k,v)的形式,key是行号的偏移量,value的值是这一行的内容。在上述的过程中,之后是调用map方法,将以上内容转换成正真的(key,v...转载 2019-09-18 12:44:57 · 457 阅读 · 0 评论 -
Hadoop HA 架构详解
HadoopHA 是什么?hadoop2版本中可以有多个namenode结点,一个是活跃(active)状态,一个是准备(standby)状态。(haoop 1不存在此特性)HadoopHA架构详解1.1 HDFS HA背景HDFS集群中NameNode 存在单点故障(SPOF)。对于只有一个NameNode的集群,如果NameNode机器出现意外情况,将导致整个集群无法使...原创 2019-09-17 21:47:46 · 719 阅读 · 0 评论 -
Hadoop之HDFS文件读写过程
一、HDFS读过程 1.1 HDFS API 读文件 Configuration conf = new Configuration(); FileSystem fs = FileSystem.get(conf); Path file = new Path("demo.txt"); FSDataInputStream inStream = fs.ope...原创 2019-09-17 19:55:25 · 350 阅读 · 0 评论 -
Hadoop之序列化
hadoop序列化接口1.Writable序列化时重要的接口,很多Hadoop中的数据类型都实现来这个接口,常见的有:FloatWritable ,DoubleWritable ,IntWritable ,LongWritable ,MapWritable ,Text 等Class 都实现来中个接口。在Hadoop中定义一个结构化对象都要实现Writable接口,使得该结构化对象可以序列化为...转载 2019-09-04 08:40:38 · 162 阅读 · 0 评论