大数据技术
文章平均质量分 77
本专栏主要介绍hadoop、spark等大数据平台应用开发技术
-Heres-
他每做一件小事的时候,都像救命稻草一样抓着。有一天我一看,嚯,好家伙!他抱着的是已经让我仰望的参天大树了。
展开
-
spark集群从HDFS中读取数据并计算
一、 对于安装有spark的集群的节点要做好时间同步问题,因为节点的心跳机制需要系统时间。解决办法一:通过securecrt同时向多个tab窗口发送相同的时间调整命令a.选择菜单栏View -->ChatWindows 对号,此时所有服务器连接下方应该有个空白的部分b.在空白的部分(Chat Windows)右键鼠标, 选上Send Chatto All原创 2017-07-27 21:54:32 · 28402 阅读 · 3 评论 -
spark集群的搭建
一、准备1.两台centOS安装好JDK1.72.将spark-1.6.1-bin-hadoop2.6.tgz上传到其中一台CentOS二、安装2.1、在根目录下,新建bigdata目录,并将spark的安装包解压到此目录下;mkdir /bigdatatar -zxvf spark-1.6.1-bin-hadoop2.6.tgz -C /bigdata2.2修改配置原创 2017-07-20 23:02:16 · 1046 阅读 · 0 评论 -
如何在eclipse中使用maven
1.解压eclipse(已经集成了maven插件)2.new -->project--->maven--->maven project3.下一步,如图:(别忘记勾上两个勾)4.如图:5.完成新建6.我们可以通过联网下载maven的包依赖,也可以手动添加已经下载好的包依赖,在centOS中,我们将包依赖解压到用户家目录下,如root用户,就解压在/root原创 2017-03-21 22:17:35 · 507 阅读 · 0 评论 -
hadoop上传文件报错
报错原因:could only be replicated to 0 nodes instead of minReplication (=1). There are 2 datanod1.首先检查hadoop各结点的防火墙是否已经关闭,没有关闭,使用service iptables stop ,并关闭开机启动,chkconfig iptables off;2.检查是否离开安全模式,没有离原创 2017-04-18 14:55:33 · 2054 阅读 · 0 评论 -
wordcount程序卡住了
问题,内置wordcount程序运行到INFO mapreduce.Job: Running job: job_1492509956955_0001卡住了,很长时间不动:17/04/18 18:00:30 INFO client.RMProxy: Connecting to ResourceManager at heres04/192.168.2.113:803217/04/18 18:00原创 2017-04-18 18:54:53 · 3207 阅读 · 0 评论 -
sqoop数据导入的常见问题及小结
本文首先是讲述sqoop的如何进行数据的导入和导出及其注意点,然后列举了sqoop和mysql在数据导入导出过程中的一些常见错误。原创 2017-04-23 19:05:38 · 2318 阅读 · 0 评论 -
hbase集群部分节点HRegionServer启动后自动关闭的问题
我有四个HRegionServer节点。发现输入./start-hbase.sh后,只启动了两个节点,而且后来两个节点又挂掉了。查看日志:more hbase-root-regionserver-heres01.log报错如下:2017-04-30 14:02:05,999 FATAL [regionserver60020] regionserver.HRegionServer原创 2017-04-30 16:47:57 · 4193 阅读 · 0 评论 -
hadoop的第一个程序WordCount
伪代码分析: 执行步骤: 1. map任务处理1.1读取输入文件内容,解析成key、value对。对输入文件的每一行,解析成key、value对。每一个键值对调用一次map函数。1.2写自己的逻辑,对输入的key、value处理,转换成新的key、value输出。1.3对输出的key、value进行分区。1.4对不同分区的数据,按照key进行排序、分组。相同key的...原创 2017-03-09 21:31:53 · 570 阅读 · 0 评论 -
hadoop之Partitioner编程
Mapreduce默认的partitioner是HashPartitioner。除了这个mapreduce还提供了3种partitioner。Partitioner是partitioner的基类,如果需要定制partitioner也需要继承该类。1.实现分区的步骤:1.1先分析一下具体的业务逻辑(如根据地区进行分区),确定大概有多少个分区;1.2首先书写一个类,它要继承org.ap原创 2017-03-25 22:20:57 · 469 阅读 · 0 评论 -
hadoop之求和和自定义排序编程
排序MR默认是按key2进行排序的,如果想自定义排序规则,被排序的对象要实现WritableComparable接口,在compareTo方法中实现排序规则,然后将这个对象当做k2,即可完成排序。注:1.key1 value1 是map的输入;key2 value2是reduce的输入。需求分析:数据:zhangsan@163.com 60000 2014-02-2原创 2017-03-26 21:05:09 · 903 阅读 · 0 评论 -
hadoop之Combiners编程
每一个map可能会产生大量的输出,combiner的作用就是在map端对输出先做一次合并,以减少传输到reducer的数据量。combiner最基本是实现本地key的归并,combiner具有类似本地的reduce功能。如果不用combiner,那么,所有的结果都是reduce完成,效率会相对低下。使用combiner,先完成的map会在本地聚合,提升速度。注意:Com原创 2017-03-27 21:39:59 · 576 阅读 · 0 评论 -
hadoop的Shuffle机制
如图mapreduce的shuffle和排序:Map task: 1.每个map有一个环形内存缓冲区,用于存储任务的输出。默认大小100MB(io.sort.mb属性),一旦达到阀值0.8(io.sort.spill.percent)(80M),一个后台线程把内容写到(spill)磁盘的指定目录(mapred.local.dir)下的新建的一个溢出写文件(这种小文件一旦写满,...原创 2017-03-28 21:44:39 · 482 阅读 · 0 评论 -
hadoop之倒排索引
倒排索引基础知识可以参博客:http://blog.csdn.net/hguisu/article/details/7962350。需求:a.txt内容:hello tomhello jerryhello kittyhello worldhello tomb.txt内容:hello jerryhello tomhello world需要我们在原创 2017-04-06 22:23:11 · 456 阅读 · 0 评论 -
zookeeper的搭建
简介:»Zookeeper是 Google 的 Chubby一个开源的实现,是 Hadoop 的分布式协调服务»它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等 »Hadoop2.0,使用Zookeeper的事件处理确保整个集群只有一个活跃的NameNode,存储配置信息等.»HBase,使用Zookeeper的事件处理确保整个集群只有一个HM...转载 2017-04-11 18:44:32 · 505 阅读 · 0 评论 -
hadoop分布式搭建(+zookeeper,6台机器)
前期准备(这里使用的centOS6,hadoop2.2.0【这是64位的hadoop2.2.0的安装包和源码包下载地址:http://download.csdn.net/detail/vinsuan1993/9812599】):1.修改Linux主机名2.修改IP3.修改主机名和IP的映射关系######注意######如果是租用的服务器或是使用的云主机(如华为用主机、阿里云主机等原创 2017-04-13 11:18:37 · 2789 阅读 · 0 评论 -
hbase初识
HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协调工具。主键:主键是用来检索记录的主键,访问hbase ta原创 2017-04-30 16:55:58 · 652 阅读 · 0 评论 -
hbase的搭建
hbase的伪分布式(单结点):1.修改hbase-env.sh 将java的路径修改一下。2.修改hbase-site.xml ,将数据库文件保存到本地文件系统。 hbase.rootdir file:///root/hbase3.启动hbase ./start-hbase.sh 4.启动原创 2017-04-30 16:49:10 · 397 阅读 · 0 评论 -
HBase shell小结
1、进入hbase命令行./hbase shell2、显示帮助:help3、显示hbase中的表list4、创建user表,包含info、data两个列族:create 'user', 'info1', 'data1'create 'user', {NAME => 'info', VERSIONS => '3'}例子:create ‘mygirls’,{NAME...原创 2017-04-30 16:56:24 · 413 阅读 · 0 评论 -
HBase Java API 使用示例
在使用HBase Java API 之前,大家首先要了解HBase Java API类,可参考博客:http://www.cnblogs.com/ggjucheng/p/3380267.html几个相关类与HBase数据模型之间的对应关系java类HBase数据模型HBaseAdmin数据库(DataBase)原创 2017-05-02 19:54:12 · 1529 阅读 · 0 评论 -
hive简介与安装
Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 QL ,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer原创 2017-05-04 22:58:00 · 587 阅读 · 0 评论 -
hive常用语法小结
1、创建表(MANAGED_TABLE):create table student(id bigint,name string) row format delimited fields terminated by '\t' stored as sequencefile;注:row format delimited表示一行是一条记录 fields terminated by ...原创 2017-05-06 22:51:25 · 801 阅读 · 0 评论 -
hive之UDF编程
0.要继承org.apache.hadoop.hive.ql.exec.UDF类实现evaluate 方法public class NationUDF extends UDF { public static Map nationMap = new HashMap(); static{ nationMap.put("China", "中国"); nationMap.put("Japa原创 2017-05-07 17:09:44 · 812 阅读 · 0 评论 -
flume介绍之版本及其原理
一.概述Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。Flume 初始的发行版本目前被统称为 Flume OG(original generation),属于 cloudera。但随着 Flume 功能的扩展,Flume OG 代码工程臃肿、转载 2017-05-08 13:41:56 · 5531 阅读 · 0 评论 -
flume安装与配置
flume-1.5.0安装包下载(flume NG):http://download.csdn.net/detail/vinsuan1993/9836334安装环境:centOS-6.5-64位1、需求:在一台机器部署flume,让其收集数据并将数据写到hdfs中。2、安装flume(flume并不依赖于hadoop框架,只依赖JDK和一些hadoop的jar包)2.1、将flum原创 2017-05-08 13:56:19 · 1597 阅读 · 0 评论 -
hadoop之日志分析
需求:通过分析论坛日志,计算论坛关键指标,供运营者决策。这个日志有五个字段:IP,访问时间,访问资源,访问状态,本次流量。 ***浏览量PV 定义:页面浏览量即为PV(Page View),是指所有用户浏览页面的总和,一个独立用户每打开一个页面就被记录1 次。分析:网站总浏览量,可以考核用户对于网站的兴趣,就像收视率对于电视剧一样。但是对于网站运营者来说,更重要的原创 2017-05-08 22:56:10 · 834 阅读 · 0 评论 -
hadoop之RPC
RPC——远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,RPC跨越了传输层和应用层。RPC使得开发包括网络分布式多程序在内的应用程序更加容易。RPC采用客户机/服务器模式。请求程序就是一个客户机,而服务提供程序就是一个服务器。首先,客户原创 2017-05-09 18:52:45 · 410 阅读 · 0 评论 -
hadoop之远程debug
一、JPDA 简介Sun Microsystem 的 Java Platform Debugger Architecture (JPDA) 技术是一个多层架构,使您能够在各种环境中轻松调试 Java 应用程序。JPDA 由两个接口(分别是 JVM Tool Interface 和 JDI)、一个协议(Java Debug Wire Protocol)和两个用于合并它们的软件组件(后端和前端)组原创 2017-05-09 20:24:39 · 668 阅读 · 0 评论 -
hadoop2.2.0伪分布式搭建
一、Linux环境选择(centOS和VM虚拟机)1、点击VMware快捷方式,右键打开文件所在位置 -> 双击vmnetcfg.exe -> VMnet1 host-only ->修改subnet ip 设置网段:192.168.1.0 子网掩码:255.255.255.0 -> apply -> ok2、回到windows --> 打开网络和共享中心 -> 更改适配器设置 -> 右键V原创 2017-02-26 19:42:01 · 383 阅读 · 0 评论