张--小涛涛-CSDN博客

原创大数据（029）HBASE【Hbase 环境安装 -- 单机版standalone】

一、拷贝安装包将安装包方至node4的/opt/sxt/soft目录下二、解压解压目录 tar -zxvf hbase-1.1.3-bin.tar.gz三、配置 1、配置HBase的JAVA_HOME 首先查看服务器JAVA_HOME的配置【vi /etc/profile】然后执行命令vi /o

2017-11-04 15:45:45 977

原创大数据（028）HBASE【Hbase 体系架构】

一、Hbase 体系架构其中Client是客户端，连接Hbase的工具；Zookeeper实现Hbase高可用；HMaster是调度者，告诉我们的访问程序那张表在哪；HRegionServer存放数据；HRegion是表的一部分（表数据过大可能会分为若干个HRegion）；每个HRegion中有一个HLog，用于版本恢复；每个HRegion中有若干个Store（0--n

2017-11-04 14:50:28 334

原创大数据（027）HBASE【Hbase 综述】

HADOOP生态系统其中： Zookeeper：分布式协作服务组件，管理Hadoop相关组件 Flume：日志收集工具 Sqoop：关系型数据库ETL工具【ETL，是英文 Extract-Transform-Load 的缩写，用来描述将数据从来源端经过抽取（extract）

2017-11-04 10:46:52 635

转载大数据（026）Hive【Hive 优化】

1.概述　　继续《那些年使用Hive踩过的坑》一文中的剩余部分，本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题。下面开始本篇文章的优化介绍。2.介绍　　首先，我们来看看Hadoop的计算框架特性，在此特性下会衍生哪些问题？数据量大不是问题，数据倾斜是个问题。jobs数比较多的作业运行效率相对比较低，比如即使有几百行的表，如果多次关联多次汇总，产

2017-11-01 22:03:42 565

原创大数据（025）Hive【Hive 函数及其自定义函数】

原生函数参考链接https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF自定义函数一、3种自定义函数 1、UDF-----User Defined Function （一进一出） 2、UDAF-----

2017-10-31 22:13:57 319

原创大数据（024）Hive【Hive 正则匹配】

说在前面的话　　hive的正则表达式，是非常重要！作为大数据开发人员，用好hive，正则表达式，是必须品！ Hive中的正则表达式还是很强大的。数据工作者平时也离不开正则表达式。对此，特意做了个hive正则表达式的小结。所有代码都经过亲测，正常运行。1.regexp语法: A REGEXP B操作类型: strings描述: 功能与RLIKE相同sele

2017-10-29 16:13:16 2523

原创大数据（023）Hive【Hive三种启动方式、 HIVE Server2详解、 jdbc链接HIVE】

一：Hive的三种启动方式1， hive 命令行模式进入hive安装目录，输入bin/hive的执行程序，或者输入 hive –service cli 用于linux平台命令行查询，查询语句基本跟mysql查询语句类似2， hive web界面的启动方式 bin/hive –service hwi （& 表示后台运行）

2017-10-29 14:04:32 2416

原创大数据（022）Hive【Hive【DML（数据操纵语言）语句】】

----1、数据加载语句----CREATE TABLE people (id STRING,name STRING,likes ARRAY<string>,address MAP<string,string>)ROW FORMAT DELIMITEDFIELDS TERMINATED BY '\t'COLLECTION ITEMS TERMINATED BY ','MAP KEYS TERMINATED BY ':'STORED AS TEXTFILE;--在/opt/sxt

2017-10-29 10:56:45 257

原创 Web Service （014---webservice使用Jquery、Ajax请求WebService所遇到的跨域问题）

webservice使用Jquery、Ajax请求WebService所遇到的跨域问题

2017-10-26 22:08:57 203

原创 Web Service （013---webservice使用Jquery、Ajax请求WebService）

AjaxJquery

2017-10-26 22:06:57 188

原创 Web Service （012---webservice使用CXF写基于Spring的WebService[服务端+客户端]）

前言在做java-ee项目时，候我们使用最多的就是Spring框架了，有了框架的帮助。我们可以省去很多力气开发出好的项目。接下来，我就说说怎么使用Spring框架+CXF开发一个见得的WebService。步骤一、新建web项目二、在lib下引入cxf和spring相关jar包三、在项目src下新建co

2017-10-21 16:26:53 259

原创 Web Service （011---webservice自定义拦截器）

自定义拦截器需要继承org.apache.cxf.phase.AbstractPhaseInterceptor 抽象类，并实现其handleMessage方法，与重写自定义的构造器（由于AbstractPhaseInterceptor 没有无参构造器，所以要在自定义构拦截器的造器中调用supper(带参数)）。部分代码public class AuthIntercetpr

2017-10-21 16:23:46 457

原创 Web Service （010---webservice拦截器）

一、相关概念二、代码示例服务端：package com.dataType;import java.util.List;import javax.xml.ws.Endpoint;import org.apache.cxf.interceptor.Interceptor;import org.apache.cxf.interceptor.LoggingInInte

2017-10-16 22:17:12 592

原创 Web Service （009---webservice请求流程分析）

2017-10-14 23:14:18 379

原创 Web Service （008---WebService WSDL文档分析）

一、文档图解二、文档实例

2017-10-06 12:17:58 243

原创 Web Service （007---JAVA自动生成asp的WebService接口相关问题）

一、前言因为实际上我并没有天气预测的能力，因此，我的WebService实质上是请求公开的天气服务WebService得到天气情况，再转发出去。二、步骤1、进入

2017-10-05 16:45:13 295

原创 Web Service （006---使用eclipse端口拦截器[TCP/IP Monitor]监视WebService请求）

一、说明首先，我们创建的WebService默认监听的是80端口，eclipse的TCP/IP Monitor不能监视80.所以我们需要使用TCP/IP Monitor监听8080端口，之后转发至80。那么问题来了。客户端代码是自动生成的，我们怎么指定客户端请求8080端口，而不是80端口呢？要解决这个问题，应该从wsdl文件入手。步骤如下：1、我们将WebService服务的ws

2017-10-05 14:26:09 1177

原创 Web Service （005---WebService简单实例）

服务端package com.webservice.HelloWorld;import javax.jws.WebMethod;import javax.jws.WebService;/** * SEI * webservice接口类，声明方法sayHello * @author ZhangJintao */@WebServicepublic interface Hell

2017-10-03 15:08:38 371

转载 Web Service （004---WebService术语）

2017-10-03 13:58:21 229

翻译 Web Service （003---WebService概念）

1、WebService是什么2、为什么使用WebService跨平台跨语言远程调用3、什么时候使用WebService

2017-10-03 11:37:55 212

原创 Web Service （002---HTTP）

啊

2017-10-02 21:20:36 214

原创 Web Service （001---schema）

2017-10-02 21:19:29 238

原创大数据（021）Hive【Hive【DDL语句】】

----1、简单的建表语句【简单类型】----CREATE TABLE page_view (page_url STRING,ip STRING)ROW FORMAT DELIMITEDFIELDS TERMINATED BY '\t'STORED AS TEXTFILE;--在/opt/sxt/soft/apache-hive-1.2.1-bin/hive

2017-09-24 16:37:09 424

原创大数据（020）Hive【Hive安装配置(远端数据库模式)】

远端mysql1.remote一体这种存储方式需要在远端服务器运行一个mysql服务器，并且需要在Hive服务器启动meta服务。这里用mysql的测试服务器，ip位192.168.1.214，新建hive_remote数据库，字符集位latine1hive.metastore.warehouse.dir/user/

2017-09-21 06:54:29 275

原创大数据（019）Hive【Hive安装配置(本地数据库模式)】

一、linux mysql基本操作1、启动数据库service mysqld start2、连接数据库mysql -uroot -p（密码为root）3、查找用户表在连接成功后，输入如下sqluse mysql；select user , host , password from user;【注：在hive中，我们还要执行{delete from use...

2017-09-20 23:09:14 321

原创大数据（018）Hive【Hive安装配置(本地derby模式)】

一、安装前准备 HIVE安装的前提是已经搭建起了一套Hadoop环境。我们将搭建的Hadoop环境起来。准备HIVE安装包。二、安装步骤 1、拷贝hive安装包至Hadoop集群中某个节点服务器上的某个目录。这里我将其拷贝至我node5节点机器的/opt/sxt/soft目录下 2、执行命令【tar -zxvf apache-hive-1.2.1-bin.tar....

2017-09-12 21:41:28 684

原创大数据（017）Hive【Hive介绍】

一、HIVE介绍 HIVE产生的目的：方便非java编程者对hdfs数据进行MapReduce操作 HIVE概念：hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的M

2017-09-12 21:17:59 1826

原创大数据（016）Hadoop-MR编程 -- 【使用hadoop计算微博用户可能喜欢的关键词----编程】

一、前言以微博为例，每个用户会发很多微博，其中包含了很多关键词信息。而这些关键词就是用户可能感兴趣的事物。我们需要用Hadoop MapperReduce计算出来。折旧引出了文档加权算法。其含义就是计算文档中某关键词的权重，我们使用该权重来判断某用户对某关键词的依赖程度。理想状况下，权重越高，用户越依赖于某关键词。其算法如下图所示。二、源数据那么

2017-08-26 10:18:27 23342

原创大数据（015）Hadoop-MR编程 -- 【使用hadoop计算网页之间的PageRank值----编程】

源码链接如下：https://download.csdn.net/download/jintaohahahaha/9933767源码截图：

2017-08-14 22:32:09 417

原创大数据（014）Hadoop-MR编程 -- 【使用hadoop计算网页之间的PageRank值----概念】

一、什么是PageRankPageRPageRankankPageRank –PageRank是Google专有的算法，用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。 –是Google创始人拉里·佩奇和谢尔盖·布林于1997年创造的 –PageRank实现了将链接价值概念作为排名因素。二、原理

2017-08-14 22:14:52 769

原创大数据（013）Hadoop-MR编程 -- 【模拟qq推荐你可能认识的人】

一、数据准备xiaoming laowang ruhua linzhilinglaowang xiaoming fengjieruhua xiaoming ligang fengjielinzhiling xiaoming ligang fengjie guomeimeiligang ruhua fengjie linzhilingguomeimei fengjie linzhili

2017-08-13 15:43:00 954

原创大数据（012）Hadoop-MR执行环境之---定义多个resuce task

引言之前我们说道，默认情况下reduce task只有一个，当我们需要对大量数据进行统计时，一个reduce task已经捉襟见肘，那么我们就有必要配置多哦reduce task进行并行任务执行。实例例子：我们有一个每年每月温度的统计数据需要进行分析。如下图数据。我们需要统计每年中每个月的最高温度的前三名。自定义分

2017-08-06 17:55:51 406

原创大数据（011）Hadoop-MR执行环境之---总述+本地测试环境讲解

总述上一章中我们是本地开发好打jar包上传至服务器进行执行，但是开发过程中这样显然是行不通的，因此我们需要更多的执行环境。 MR执行环境有两种：本地测试环境，服务器环境一、本地测试环境本地开发好环境是在windows下执行的。通过eclipse可以看到执行信息。二、服务器环境首先需要在src下放置服务器上...

2017-08-03 23:03:28 2289 3

原创大数据（010）Hadoop-第一次使用eclipse&java&hadoop分析简单数据

一、打开eclipse二、新建java项目mapreducer三、项目下新建lib文件夹，导入hadoop相关jar，jar在源码中有四、项目下建包，写如下三个类1、WorldCountMapper.javapackage com.zjt.mapreducer.data;import java.io.IOException;import org.apache.had

2017-08-02 22:49:56 5427 1

原创大数据（009）Hadoop-使用eclipe插件操作HDFS

通过之前对HDFS、MapReduce的学习，我们了解到Hadoop也是需要编程的。那么使用java的我就产生了一个需求，在eclipse中对hadoop数据进行上传下载，以便于为进行测试。一、下载插件包我这里使用的是eclipse luna版本，在网上下载eclipse相应插件包。我下的是hadoop-eclipse-plugin-2.5.1.jar。如下图

2017-08-02 22:16:43 558

原创大数据（008）Hadoop-MapReduce 运行环境之 yarn环境搭建

一、进入hadoop配置文件目录，编辑yarn配置文件 vi /home/hadoop-2.5.1/etc/hadoop/yarn-site.xml二、将上述文件标签内容改为下方所示 yarn.nodemanager.aux-services mapreduce_shuffle yarn.resourcemanager.ha.enabled

2017-07-30 19:41:15 539

原创大数据（007）Hadoop-MapReduce

一、MApReduce概念 MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。概念"Map（映射）"和"Reduce（归约）"，是它们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。当前的软件实现是指定一个Map（映射）函数，用来把一组键值

2017-07-30 15:22:02 557

原创大数据（006）Hadoop-HDFS Federation

一、HDFS Federation 通过多个namenode/namespace把元数据的存储和管理分散到多个节点中，使到namenode/namespace可以通过增加机器来进行水平扩展。能把单个namenode的负载分散到多个节点中，在HDFS数据规模较大的时候不会也降低HDFS的性能。可以通过多个namespace来隔离不同类型的应用，把不同类型应用的H

2017-07-30 14:46:30 369

原创大数据（005）Hadoop-HDFS zookeeper和Hadoop-HDFS的集成

一、干掉masters文件进入hadoop安装目录：/home/hadoop-2.5.1中的/etc/hadoop目录。删除masters文件【因为引入keepalived之后，我们没有使用secondnamenode，因此不再需要masters文件】二、删除之前非HA的hadoop所有服务器上的数据文件 /home/hadoop-2.5三、编辑

2017-07-29 20:35:42 1315

原创大数据（004）Hadoop-HDFS zookeeper的安装

zookeeper安装一、将zookeeper-3.4.6.tar.gz拷贝至linux的home目录中，使用 tar -zxvf 命令将其解压缩二、解压缩后，进入如下目录/home/zookeeper-3.4.6/conf，在此目录下新建zoo.cfg文件，编辑如下配置后保存退出。tickTime=2000dataDir=/home/zookeeperclientPor

2017-07-29 17:15:47 799