![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 74
sheldonwong
这个作者很懒,什么都没留下…
展开
-
Hadoop3-HDFS的java客户端编写
以下载为例,HDFS的java客户端编写主要分为下面4个步骤1. 通过抽象类FileSystem的get静态方法获取文件系统hdfs的实例2. 使用fs的open方法,打开hdfs文件系统的输入流3. 打开本地输出流4. 使用IOUtils的copy方法将hdfs的输入流拷贝到本地文件系统的输出流在开始写之前,需要先引入HDFS的依赖包,包括hdfs和commons,可原创 2017-08-16 15:28:57 · 509 阅读 · 0 评论 -
搭建大数据环境
1. 下载镜像地址:https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop 2.6.3 spark-2.0.2-bin-hadoop-2.6scala-2.11.8sbt-0.13.15hive-1.2.2mysqlflume-1.6zookeeper-3.4.11kafka_2.11-0.10.2.1sto...原创 2018-09-04 23:17:40 · 200 阅读 · 0 评论 -
Hadoop8-HDFS设计与实现
1. HDFS是为大数据集设计的一种可扩展、高可用、高可靠的分布式文件系统,适合一次写入,多次读的场景。2. HDFS重要组件 2.1 NameNode 2.1.1 元信息 逻辑:Namespace的组织,命名空间 物理:存储在磁盘上的edit log和fsima...原创 2018-09-10 10:49:20 · 316 阅读 · 0 评论 -
Hadoop9-MapReduce原理
首先来看一下MapReduce的整体流程(图片来源:https://haritbigdata.wordpress.com/2015/07/21/hadoop-inside-mapreduce-process-of-shuffling-sorting-part-ii/)1. Read阶段:先切片,再调用RecorderReader将切片数据解析成一个个kv,其中key是某行的起始偏移量,...原创 2018-09-09 13:19:18 · 203 阅读 · 0 评论 -
Hadoop10-Spark初步认识
1. Spark简介数据分布式。操作并行化,Spark 会自动将函数(比如 line.contains("Python"))发到各个执行器节点上。这样,你就可以在单一的驱动器程序中编程,并且让代码自动运行在多个节点上。在分布式环境下, Spark 集群采用的是主 / 从结构。在一个 Spark 集群中,有一个节点负责中央协调, 调度各个分布式工作节点。这个中央协调节点被称为驱动器...原创 2018-09-14 11:55:44 · 186 阅读 · 0 评论 -
Hadoop11-Kafka
1. 核心概念简介Broker:Kafka 集群包含一个或多个服务器,这种服务器被称为 broker。Topic:每条发布到 Kafka 集群的消息都有一个类别,这个类别被称为 Topic。(物理上不同 Topic 的消息分开存储,逻辑上一个 Topic 的消息虽然保存于一个或多个 broker 上,但用户只需指定消息的 Topic 即可生产或消费数据而不必关心数据存于何处)。Part...原创 2018-09-14 19:16:05 · 339 阅读 · 0 评论 -
Hadoop12-Hive
1. 简介与核心概念2. 架构3. 使用4. UDF把phoneNumber转换成地区的UDFimport java.util.HashMap;import org.apache.hadoop.hive.ql.exec.UDF;public class PhoneNbrToArea extends UDF{ private static HashMap<S...原创 2018-09-14 20:00:54 · 124 阅读 · 0 评论 -
Hadoop13-Hive常用
创建表CREATE EXTERNAL TABLE test.user_info(id INT,uid STRING,item_id STRING,behavior_type INT,item_category STRING,visit_date DATE,province STRING) COMMENT 'user information!' ROW FORMAT DELIMITED F...原创 2018-11-08 21:17:57 · 116 阅读 · 0 评论 -
Hadoop14-Spark常用
python接口环境:from pyspark import SparkContext, SparkConfconf = SparkConf().setAppName(appName).setMaster(master)sc = SparkContext(conf=conf)rdddata = [1, 2, 3, 4, 5]distData = sc.parallel...原创 2018-11-08 21:24:46 · 158 阅读 · 0 评论 -
大数据环境下互联网行业数据仓库/数据平台的架构之漫谈
一直想整理一下这块内容,既然是漫谈,就想起什么说什么吧。我一直是在互联网行业,就以互联网行业来说。先大概列一下互联网行业数据仓库、数据平台的用途:整合公司所有业务数据,建立统一的数据中心; 提供各种报表,有给高层的,有给各个业务的; 为网站运营提供运营上的数据支持,就是通过数据,让运营及时了解网站和产品的运营效果; 为各个业务提供线上或线下的数据支持,成为公司统一的数据交换与提供平台...转载 2018-08-10 15:07:07 · 267 阅读 · 0 评论 -
Hadoop2-Hadoop安装与配置
在安装配置大数据环境的时候,一定要注意版本的兼容性。1. JDK环境安装配置2. 设置SSH无密登录 ssh-keygen -t rsacp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys验证:ssh locahost3. 配置Hadoop(hadoop-env.sh,core-site.xml,hdfs-site.xml,mapred-site.xml)...原创 2018-07-14 16:16:13 · 368 阅读 · 0 评论 -
大数据-常见算法
大数据量的问题是很多面试笔试中经常出现的问题,比如baidu google 腾讯 这样的一些涉及到海量数据的公司经常会问到。 下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目,方法不一定最优,如果你有更好的处理方法,欢迎与我讨论。 1.Bloom f...转载 2018-07-13 19:20:45 · 6226 阅读 · 1 评论 -
Hadoop5-用MapReduce写流量求和
需求描述:现在有一个文件,包含若干个字段(时间戳,手机号,...,上行流量,下行流量等),字段间以“\t“,分隔,数据格式如下,现在要统计出所有手机号的上行/下行流量总和。输入:时间戳 手机号 ... 上行流量 下行流量输出:手机号 总上行流量 总下行流量 总流量思路:框架传递给Map的数据是文件中的一行数据,首先将行切分成字符串数组,提取出原创 2017-08-18 11:19:29 · 556 阅读 · 0 评论 -
Hadoop4-用MapReduce写WordCount
MapReduce的编写其实挺简单的,难得是分布式的调度执行。MR程序的编写的一般步骤如下:1. XXMapper(继承自Map,重写map方法)2. XXReducer(继承自Reduce,重写reduce方法)3. XXRunner(获取job实例,设置job的相关属性,将job提交到集群中运行)在开始写程序之前,先来了解下MapReduce的执行流程Input原创 2017-08-16 15:49:26 · 349 阅读 · 0 评论 -
hadoop6-Hbase入门
像计算机这门学科,光看书是远远不够的,还要多动手,去谈谈究竟,才会深入理解。就比如说TCP/IP协议栈,光看《TCP/IP协议详解》是远远不够的,还要学会写网络程序,在写的过程中,你可能会遇到各种各样的问题,这样就会促使回去再去仔细研究书本的内容,加深理解同时使得印象深刻。 Hadoop家族现在包含很多组件,其中就包括Hbase1. Hbase产生的背景Hbase主要起源于Goog...原创 2017-08-24 20:43:05 · 607 阅读 · 0 评论 -
Hadoop1-Hadoop简介
简介Hadoop的出现,解决了大数据的存储/计算两大难题,传统的大数据框架包括三大组件HDFS,HBase,MapReduce,分别对应Google的三篇论文(GFS,BigTable,MapReduce),是他们的开源实现。随着Hadoop生态的发展,越来越多的框架出现,加入到Hadoop家族中,可以将他们划分成以下类别:先介绍Hadoop基础组件1. HDFS是Hadoop原创 2017-08-16 14:35:06 · 843 阅读 · 0 评论 -
Hadoop7-HDFS的NameNode的元数据管理机制与Hadoop的高可用架构
在介绍HDFS的元数据管理之前,有必要先了解下HDFS的架构1. HDFS架构简介HDFS主要包含两个组件,NameNode与DataNode,其中NameNode主要用来管理元数据,DataNode用来存储数据,在分布式HDFS架构中,通常会有一台NameNode,一台SecondaryNameNode,多台DataNode。 2. 上传文件使用HDFS上传文件通常包含以下几...原创 2017-08-25 21:20:52 · 462 阅读 · 0 评论 -
大数据组件常见端口-Hadoop、Hbase、Hive、Spark、Kafka等
常见端口汇总:Hadoop: 50070:HDFS WEB UI端口 8020 : 高可用的HDFS RPC端口 9000 : 非高可用的HDFS RPC端口 8088 : Yarn 的WEB UI 接口 8485 : JournalNode 的RPC端口 8019 : ZKFC端口Zookeeper: 2181 : 客户端连接zookeeper的...转载 2018-04-13 19:53:23 · 3349 阅读 · 0 评论 -
大数据-搜索-倒排索引
1. 概念通过一个例子来介绍倒排索引文档1:Tom lives in Guangzhou,I live in Guangzhou too文档2:He once lived in Shanghai正向索引文章ID关键词1guangzhou,i,live,tom 2he,shanghai倒排索引简单点说,倒排索引就是讲包含关键词的文章ID整理出来关键词文章IDguangzhou1 he2i1liv...原创 2018-07-12 15:52:16 · 387 阅读 · 0 评论 -
大数据-ES学习1-安装配置
1. JAVA环境下载jdk配置2. ES配置,主要是config/jvm.options默认的堆内存是1G,如果内存不够,启动时会报错所以需要把jvm.options的堆内存配置成一个合理的值3. 启动与验证bin/elasticsearchbin/elasticsearch -d4. 安装插件 elasticsearch-headelasticse...原创 2018-07-12 19:50:15 · 930 阅读 · 0 评论