wsow-CSDN博客

原创 kafka和spark集成启动报错java.lang.NoClassDefFoundError:org/apache/zookeeper/Watcher

解决方法：进入kafka安装目录下，将其lib目录下的zookeeper jar包拷贝到spark安装目录下的lib目录下jar包位置如下图：

2017-10-25 18:02:31 9443

原创移除ArrayBuffer中第一个负数后的所有负数

import scala.collection.mutable.ArrayBufferobject test4 { def main(args: Array[String]) { //需求：移除下列可变数组中的第一个负数之后的所有负数 val a =ArrayBuffer[Int]() a+=(1,2,3,4,-1,-3,-9,-4) var foundFi

2017-10-12 21:49:12 728 1

原创 Scala算法

为了练习scala，特地从网上找来Java经典问题算法大全，用scala来实现，记录于此。/*【程序1】题目：古典问题：有一对兔子，从出生后第3个月起每个月都生一对兔子，小兔子长到第三个月后每个月又生一对兔子，假如兔子都不死，问每个月的兔子总数为多少？1.程序分析：兔子的规律为数列1,1,2,3,5,8,13,21....*/方法1：[java] view

2017-10-12 19:52:36 3193

原创 scala 求100-200质数，杨辉三角

1. 100-200 质数import scala.mathobject test1 { def main(args: Array[String]):Unit={ def isPrime(p:Int):Boolean={ for (i <- 2 to math.sqrt(p).toInt) { if(p % i ==0){ retur

2017-10-12 19:50:34 5441

原创 01_Scala基础语法

object demo01 { def main(args: Array[String]) {// print("Hello World!!!")// val x1:Int=112313 可以自动推断类型// val x=10// lazy 只能修饰变量// 优点可以直接用于字符串拼接优于Python// print("dfs"+"fgd"

2017-10-11 18:26:44 338

原创 Pycharm 添加脚本的头信息模板

2017-09-29 16:25:41 2224

原创阿里云Maven仓库地址

在maven的settings.xml 文件里配置mirrors的子节点，添加如下mirror mirror> id>nexus-aliyunid> mirrorOf>*mirrorOf> name>Nexus aliyunname> url>http://maven.aliyun.com/nexus/content/g

2017-09-27 21:26:00 322

转载 Flume讲解

一、Flume介绍Flume是一个分布式、可靠、和高可用的海量日志聚合的系统，支持在系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。设计目标：(1) 可靠性当节点出现故障时，日志能够被传送到其他节点上而不会丢失。Flume提供了三种级别的可靠性保障，从强到弱依次分别为：end-to-end（收到数据agent首先

2017-09-26 21:11:23 341

转载正则表达式基本用法

正则表达式：符合一定规则的表达式，用特定符号来表达一些代码。特点：用于一些特定的符号来表示一些代码操作，这样可以简化书写作用:专门用于操作字符串。优点：可以简化对字符串的复杂操作。缺点：符号定义越多，正则表达式越长，阅读性越差正则表达式的构造摘要1. 字符 \\ 反

2017-09-24 18:12:07 650

原创 Hive中join的三种方式

hive在实际的应用过程中，大部份分情况都会涉及到不同的表格的连接，例如在进行两个table的join的时候，利用MR的思想会消耗大量的内存，良妃磁盘的IO，大幅度的影响性能，因为shuffle真的好令人担心啊，总之，就是各种问题都是由他产生的。下面介绍一下涉及hive在join的时候的优化方式第一：在map端产生join mapJoin的主要意思就是，当链接的两个表是一个

2017-09-24 15:12:15 4116

转载 hive数据倾斜调优

HIVE 数据倾斜调优总结在做Shuffle阶段的优化过程中，遇到了数据倾斜的问题，造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和，优化是基于这些 Counters得出的平均值，而由于数据倾斜的原因造成map处理数据量的差异过大，使得这些平均值能代表的价值降低。Hive的执行是分阶段的，map处理数据量的差异取决于上一个s

2017-09-24 14:54:26 338

原创 HDFS数据安全性如何保证

HDFS数据安全性如何保证1)、存储在HDFS系统上的文件，会分割成128M大小的block存储在不同的节点上，block的副本数默认3份，也可配置成更多份；2)、第一个副本一般放置在与client（客户端）所在的同一节点上（若客户端无datanode，则随机放），第二个副本放置到与第一个副本同一机架的不同节点，第三个副本放到不同机架的datanode节点，当取用时遵循就近原则；

2017-09-23 15:05:42 5248

原创 hadoop2.x与Hadoop1.x区别

hadoop2.x与Hadoop1.x区别：（1）2.x比1.x从性能上有很大增强（2）Hadoop1中的JobTracker是一个功能集中的部分，负责资源的分配和任务的分配，所以JobTracker单点出问题就会造成整个集群无法使用了，而且MapReduce模式是集成在Hadoop1中，不易分解;Hadoop2中，ResourceManager(RM)就是负责资源的分配，Nod

2017-09-23 15:04:43 1218

转载 hadoop案例分析（三）

随笔 - 270 文章 - 1 评论 - 1341Hadoop学习笔记—20.网站日志分析项目案例（三）统计分析网站日志分析项目案例（一）项目介绍：http://www.cnblogs.com/edisonchou/p/4449082.html网站日志分析项目案例（二）数据清洗：http://www.cnblogs.com/edisonchou/p/4458219.htm

2017-09-19 23:35:22 1888

转载 hadoop案例分析（二）

Hadoop学习笔记—20.网站日志分析项目案例（二）数据清洗网站日志分析项目案例（一）项目介绍：http://www.cnblogs.com/edisonchou/p/4449082.html网站日志分析项目案例（二）数据清洗：当前页面网站日志分析项目案例（三）统计分析：http://www.cnblogs.com/edisonchou/p/4464349.html一

2017-09-19 23:33:48 904

转载 hadoop网站日志分析（一）

Hadoop学习笔记—20.网站日志分析项目案例（一）项目介绍网站日志分析项目案例（一）项目介绍：当前页面网站日志分析项目案例（二）数据清洗：http://www.cnblogs.com/edisonchou/p/4458219.html网站日志分析项目案例（三）统计分析：http://www.cnblogs.com/edisonchou/p/4464349.html一、项

2017-09-19 17:54:41 5531

原创 mysql执行引擎

MyISAM: 优势 – 查询速度快 – 数据和索引压缩问题 – 表级锁 – 数据丢失InnoDB: 优势 – 行级锁 – 事务支持 – 数据安全问题 – 数据文件庞大 – 启动慢 – 不支持FULLTEXT索引　　如果你是个赛车手并且按一下按钮就能够立即更换引擎而不需要把车开到车库里去换，那会是怎么感觉呢？MySQL数据库为开发人员所做的就好像是按按钮换引擎；它让你选择数据库

2017-09-19 14:23:32 579

原创 hbase读写流程

----------------------------------------hbase表数据的检索流程图（读和写的流程） 1、hbase在Hadoop集群中的物理架构 master通常是Hadoop集群中的一台或两台（backup-Master） regionserver通常是Hadoop集群中的部分或全部

2017-09-19 12:12:10 515

原创 hbase与sqoop集成

HBase与 Sqoop整合将mysql中的数据导入到HBase## 在mysql中创建一张表create database demo;use demo;//导入全部数据到MySQL 在mysql命令行source /home/bigdata/so_detail.sql//验证数据是否导入成功select * from so_deta

2017-09-19 00:43:33 1142

原创 hbase与hive集成

hbase与hive集成官方部署使用参考资料：官方文档步骤在hive的官网上： 1、拷贝jar包或创建jar包的软连接 hive作为一个客户端访问hbase需要hbase相同jar包的依赖支持创建软连接，hive作为hbase的客户端需要访问hbase，需要相关jar包依赖软连接类似于快捷方式，删除软连接不会删除原文件

2017-09-19 00:41:45 561

原创从hbase表1中读取数据，最终结果写入到hbase表2 ，如何通过MapReduce实现？

需要一：将hbase中‘student’表中的info：name和info：age两列数据取出并写入到hbase中‘user’表中的basic：XM和basic：NL class ReadStudentMapper extends TableMapperpackage hbaseapi.hbase;import java.io.IOException;import org.apac

2017-09-19 00:39:51 1639

转载 jvm内存模型

我是一只孤傲的鱼鹰让我们不厌其烦的从内存模型开始说起：作为一般人需要了解到的，JVM的内存区域可以被分为：线程栈，堆，静态方法区（实际上还有更多功能的区域，并且这里说的是JVM的内存区域，实际上Java程序还可以调用native方法使用直接内存）。本文接下来就重点说说这三个区域。1. 线程栈简介注意这个栈和数据结构中的stack有相似之处，但并不是用户态的。准确的讲它压入的

2017-09-18 01:02:42 417

原创 Hbase 布隆过滤器BloomFilter介绍

1、主要功能提高随机读的性能2、存储开销bloom filter的数据存在StoreFile的meta中，一旦写入无法更新，因为StoreFile是不可变的。Bloomfilter是一个列族（cf）级别的配置属性，如果你在表中设置了Bloomfilter，那么HBase会在生成StoreFile时包含一份bloomfilter结构的数据，称其为MetaBlock

2017-09-18 00:38:24 569

原创 HBase数据存储格式

好的数据结构，对于检索数据，插入数据的效率就会非常高。常见的数据结构B+树根节点和枝节点很简单，分别记录每个叶子节点的最小值，并用一个指针指向叶子节点。叶子节点里每个键值都指向真正的数据块，每个叶子节点都有前指针和后指针，这是为了做范围查询时，叶子节点间可以直接跳转，从而避免再去回溯至枝和根节点。特点： 1、有n棵子树的结点中含有n个关键字，

2017-09-18 00:28:12 641

转载 HBase-1.2.4LruBlockCache实现分析（一）

一、简介 BlockCache是HBase中的一个重要特性，相比于写数据时缓存为Memstore，读数据时的缓存则为BlockCache。 LruBlockCache是HBase中BlockCache的默认实现，它采用严格的LRU算法来淘汰Block。二、缓存级别目前有三种缓存级别，定义在BlockPriority中，如下：[java] view plain copypublic en

2017-09-17 18:19:47 407

原创 hbase-HA

HMaster HA 防止master单节点故障**重点内容** 虽然hbase表数据的读写不经过master，master宕机一段时间内集群还可以正常读写，当时还是有不可或缺的作用如何实现 Master HA的实现是借助于zookeeper基于观察者模式监控master状态 regionserver是否有单点故障？没有，类

2017-09-16 16:03:20 409

转载 MapReduce 图解流程超详细解答(1)-【map阶段】

MapReduce 图解流程超详细解答(1)-【map阶段】转自：http://www.open-open.com/lib/view/open1453097241308.html 在MapReduce中，一个YARN 应用被称作一个job， MapReduce 框架提供的应用，master的一个实现被称作MRAppMaster MapReduce Job的时间线 M

2017-09-16 01:15:33 314

转载 hadoop资源

Hadoop学习路线图转自：http://blog.csdn.net/zhoudaxia/article/details/8801769 按照这个路线图来学习即可。 1、M. Tim Jones的三篇文章：用Hadoop进行分布式数据处理第1部分（入门）：http://www.ibm.com/developerworks/cn/linux/l-hadoop-1

2017-09-16 01:12:14 297

原创将hdfs上的数据通过MapReduce上传到hbase上

package hbase; import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apache.hadoop.fs.Path; import org.apache.hadoop.hbase.HBaseConfiguration; import o

2017-09-14 18:35:49 372

原创 Hbase-API,基本表命令操作

package hbase;import java.io.IOException;import java.util.Iterator;import java.util.List;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbas

2017-09-14 18:21:07 309

转载 kafka

Kafka[1]是linkedin用于日志处理的分布式消息队列，linkedin的日志数据容量大，但对可靠性要求不高，其日志数据主要包括用户行为（登录、浏览、点击、分享、喜欢）以及系统运行日志（CPU、内存、磁盘、网络、系统及进程状态）。当前很多的消息队列服务提供可靠交付保证，并默认是即时消费（不适合离线）。高可靠交付对linkedin的日志不是必须的，故可通过降低可靠性来提高性能，同时

2017-09-13 09:01:48 263

转载 flume架构及应用介绍

在具体介绍本文内容之前，先给大家看一下Hadoop业务的整体开发流程：从Hadoop的业务开发流程图中可以看出，在大数据的业务处理过程中，对于数据的采集是十分重要的一步，也是不可避免的一步，从而引出我们本文的主角—Flume。本文将围绕Flume的架构、Flume的应用(日志采集)进行详细的介绍。（一）Flume架构介绍 1、Flume的概念 flume是分布式的

2017-09-11 13:00:33 305

原创 mysql

在使用SQL语句查询数据库记录时，如果要查询相同的内容，有着不同的多种方法。　　仍然，尽管使用多种方法可以得到相同的结果，但是，如果您使用不同的方法，在执行效益上是截然不同的。因此，我们得仔细考虑，如果要查询相同结果，该使用哪种语句，执行效益比较好。　　这就是SQL语句的优化。　　以下优化语句，针对MS Sql数据库。　　1、对查询进行优化，应尽量避免全表扫描，首先应考虑在 whe

2017-09-09 00:06:53 223

原创 hive压缩格式

Hive压缩格式TextFileHive数据表的默认格式，存储方式：行存储。可使用Gzip,Bzip2等压缩算法压缩,压缩后的文件不支持split但在反序列化过程中，必须逐个字符判断是不是分隔符和行结束符，因此反序列化开销会比SequenceFile高几十倍。--创建数据表：create table if not exists textfile_table(site

2017-09-09 00:01:50 298

转载 etl

ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程，目的是将企业中的分散、零乱、标准不统一的数据整合到一起，为企业的决策提供分析依据。 ETL是BI项目重要的一个环节。通常情况下，在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关接到BI项目的成败。　　ETL的设计分三部分：数据抽取、数据的清洗转换、数据的加载。在设计ETL的时候我们也

2017-09-07 14:16:56 426

原创 hive/pom.xml文件报错

解决方法：如下

2017-09-06 18:44:08 546

转载 mapreduce

MapReduce是用于数据处理的一种编程模型，简单但足够强大，专门为并行处理大数据而设计。1. 通俗理解MapReduceMapReduce的处理过程分为两个步骤：map和reduce。每个阶段的输入输出都是key-value的形式，key和value的类型可以自行指定。map阶段对切分好的数据进行并行处理，处理结果传输给reduce，由reduce函数完成最后的汇总。例如从大量历史

2017-09-03 14:05:10 587

原创 MapReduce的shuffle阶段

MapReduce的Shuffle过程介绍Shuffle的本义是洗牌、混洗，把一组有一定规则的数据尽量转换成一组无规则的数据，越随机越好。MapReduce中的Shuffle更像是洗牌的逆过程，把一组无规则的数据尽量转换成一组具有一定规则的数据。为什么MapReduce计算模型需要Shuffle过程？我们都知道MapReduce计算模型一般包括两个重要的阶段：Map是映射，负责数据

2017-09-03 12:47:29 372

原创 MapReduce二次排序分区，分组优化

自定义分组 NameGrouppackage test;import org.apache.hadoop.io.RawComparator;import org.apache.hadoop.io.WritableComparator;public class NameGroup implements RawComparator<ConsumeWritable>{ public int c

2017-09-03 00:20:29 297

原创 MapReduce 二次排序

自定义keypackage test;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import org.apache.hadoop.io.WritableComparable;public class ConsumeWritable implements WritableCompara

2017-09-01 21:24:09 238

空空如也

空空如也