caiyefly-CSDN博客

此篇文章的目的是帮助想从事大数据工作方向的没有编程基础的人员，或者有一定的java编程基础的人员。为什么使用scala作为大数据编程语言？1，首先scala是一门优雅的编程语言，何为优雅形象的说就是api更加人性化，不需要像java一样要写大量的代码。2，对于从事java语言开发的同学简单易学，而且java，scala都是基于java虚拟机的，并且api可以互相调用非常方便。3，目...

2019-02-11 15:39:03 486

原创 hadoop集群遇到的奇怪问题

安装Hadoop-2.8.0集群问题整理原因：主机名与ip映射出现问题，导致其它节点找不到namenode。主机名不能带有下划线。问题描述：使用start-all.sh启动后，使用jps查看没有namenode进程。其它节点也没有datenode进程。Log中报错（namenode）java.lang.IllegalArgumentException:

2017-12-24 17:15:02 463

原创搭建zookeeper集群遇到的问题整理

1，如果使用的是公网Ip在配置好以后会报错，应该使用内网IP。2，http://blog.csdn.net/weiyongle1996/article/details/73733228

2017-12-21 12:28:56 357

原创 kafka连接问题

问题描述：ERROR Error when sending message to topic helloworld with key: null, value: 3 bytes with error: (org.apache.kafka.clients.producer.internals.ErrorLoggingCallback)org.apache.kafka.common.errors.

2017-12-13 16:08:29 4248

转载 redis在linux系统下客户端命令

keys *取出当前匹配的所有key> exists larry(integer) 0当前的key是否存在del lv删除当前keyexpire设置过期时间> expire larry 10(integer) 1> move larry ad4(integer) 1移动larry键值对到ad4数据库> pers

2017-10-24 16:40:28 2523

转载 JVM调优总结

堆大小设置[plain] view plain copy java -Xmx3550m -Xms3550m -Xmn2g -Xss128k -Xmx3550m：设置JVM最大可用内存为3550M。-Xms3550m：设置JVM初始内存为3550m。此值可以设置与-Xmx相同，以避免每次垃圾回收完成后JVM重新分配

2017-09-24 20:35:14 247

转载虚拟机性能监控和故障处理工具

给系统定位问题，知识、经验是关键基础，数据时依据，工具是运用知识处理数据的手段。数据：运行日志异常堆栈 GC日志线程快照（threaddump/javacore文件）堆转储快照（heapdump/hprof文件）一 JDK命令行工具1 jps 虚拟机进程状况工具常用的几个参数：-l 输出jav

2017-09-24 20:28:23 322

转载 JVM垃圾收集算法及垃圾收集器

根搜索算法（收集垃圾）根搜索算法是从离散数学中的图论引入的，程序把所有的引用关系看作一张图，从一个节点GC ROOT开始，寻找对应的引用节点，找到这个节点以后，继续寻找这个节点的引用节点，当所有的引用节点寻找完毕之后，剩余的节点则被认为是没有被引用到的节点，即无用的节点。目前java中可作为GC Root的对象有1、虚拟机栈中引用的对象（本地变量表

2017-09-24 20:25:06 234

转载 ETL

为提高数据仓库数据质量，需要在ETL过程进行数据清洗。本文首先提出了ETL过程进行数据清洗应解决的问题，然后通过分析现有的ETL处理方式说明应采用数据库中的ETL处理，介绍了数据质量和数据清洗的原理并提出了数据清洗在ETL中的应用模型，最后通过实例说明数据清洗的具体实现。 1 前言ETL即数据抽取（Extract）、转换（Transform）、装载（Load）的过程。

2017-09-21 22:09:41 555

原创 Scala知识点整理

scala是一门多范式编程语言（面向对象，函数式编程）1，scala中定义一个类不用提供对外的set，get方法。2，伴生对象：一定是object+类名。且在同一文件中。特点：可以访问类中被private修饰的属性和方法。private[this]，加上this后，伴生对象也不能使用。3，类的私有private属性可以在类内部或者伴生对象中使用。4，伴生对象的作用：（它是静态的

2017-09-20 21:53:57 1125

原创 scalikeJDBC

ScalikeJDBC基于SQL的简介DB访问1. 什么是ScalikeJDBCScalikeJDBC是一款给Scala开发者使用的简洁DB访问类库，它是基于SQL的，使用者只需要关注SQL逻辑的编写，所有的数据库操作都交给ScalikeJDBC。这个类库内置包含了JDBC API，并且给用户提供了简单易用并且非常灵活的API。并且，QueryDSL(通用查询查询框架)使你的代码类型安全

2017-09-20 21:07:34 4660

原创 HIVE

1.11 什么是HIVEHive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能1.12为什么使用HIVE01 直接使用hadoop所面临的问题人员学习成本太高项目周期要求太短MapReduce实现复杂查询逻辑开发难度太大 02 为什么要使用Hive 操作接口采用类SQL语法，提供快速开发的能力。

2017-09-20 19:32:03 269

转载 zookeeper在kafka中的作用

简介Kafka使用zookeeper作为其分布式协调框架，很好的将消息生产、消息存储、消息消费的过程结合在一起。同时借助zookeeper，kafka能够生产者、消费者和broker在内的所以组件在无状态的情况下，建立起生产者和消费者的订阅关系，并实现生产者与消费者的负载均衡。从拓扑结构看kafka与zookeeper的关系：如上图所示，在典型的Kafka集群中, Kafk

2017-09-11 22:24:46 2305

原创 Hadoop中的zookeeper

一，zookeeper的作用1，替用户管理小体量的数据。（比如：帮助Hbase管理顶级索引信息）2，替用户监听指定的数据（当数据发生变化时，用户会得到通知。比如：在典型的Kafka集群中, Kafka通过Zookeeper管理集群配置，选举leader，以及在Consumer Group发生变化时进行rebalance。Producer使用push模式将消息发布到broker，Consum

2017-09-11 22:13:28 1639

原创 Hbase客户端操作api

1，创建一张表import java.io.FileInputStream;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.HColumnDescriptor;import

2017-09-10 17:30:23 265

原创 Hadoop中的Hbase

一，Hbase的介绍与个人理解1，Hbase是一个分布式数据库，主要用来做联机的事务处理。它是一个No SQL 数据库。里面存储的数据都是K,V类型的数据，与另一个分布式数据库Redis类似。而不同于Mysql中的数据库表模型（三范式）。2，Hbase具备实时的增删改查功能，以后我们做实时的数据分析，可以将结果存入Hbase，Redis中。分布式数据库的优点：可以动态扩容，负载能力可以动态

2017-09-07 16:02:27 1126

原创 CtonOS7命令整理

#查看服务状态systemctl status NetworkManager#停止服务systemctl stop NetworkManager#启动服务systemctl start NetworkManager#禁止服务开机启动systemctl disable NetworkManager#设置服务开机启动systemctl enable NetworkM

2017-09-06 20:47:11 462

转载 Redis

http://blog.csdn.net/xyang81/article/details/51918129

2017-09-05 08:37:47 167

原创单例模式

/** * Created by chao on 2017/9/4. * 懒汉式 */public class Singleton { private static Singleton instrance; private Singleton(){} public static synchronized Singleton getInstrance(){

2017-09-04 13:14:44 224

原创 Hadoop中的Yarn

一：部署1，nodeManager在物理机上应该跟datanode在一起 map端将来会到HDFS上读取数据 reduce端将来会写数据到HDFS上2，resource Manager 应该独立部署在一台物理机上。二：说明1，yarn是一个分布式程序的运行调度平台。2，yarn集群就安装在HDFS集群的机器上3，角色分配

2017-09-03 20:13:17 366

原创 Hadoop中的HDFS

HDFS（分布式文件系统）一：作用为了解决大量文件存储的问题，hadoop提供了一个组件HDFS。可以将文件分散到不同的服务器上。二：角色分配分为namenode跟datenode。namenode主要作用：存储目录信息，存储元数据信息，管理datenode。datenode主要作用：存储具体的文件的block块。三：详细介绍namenode1，记录元数据信息：文件

2017-09-03 19:17:50 505

原创 Spark程序执行过程中遇到的线程安全问题及解决办法

2017-09-02 13:18:28 3380

原创难点汇总

模块一：flume收集log文件flume的source不满足我们的需求，所以自定义source。遇到的难点：1，实时收集的数据，采集后出现乱码问题。最后发现是因为RandomAccessFile 读写文件时，不管文件中保存的数据编码格式是什么使用 RandomAccessFile对象方法的 readLine() 都会将编码格式转换成 ISO-8859-1 所以输出显示是还要在进行

2017-08-31 20:09:21 363

原创 kafka在集群安装步骤及相关命令

1.安装zk集群2.config/server.properties修改broker.id(唯一的)：broker.id=1修改kafka绑定的网卡host.name=node-1.xiaoniu.com修改kafka数据存放目录：log.dirs=/bigdata/kafka_2.11-0.8.2.2/data修改zk地址:zookeeper.connect=node

2017-08-30 11:14:41 297

原创 SparkSQL语句归纳总结

1，求分组TOPN常用语法ROW_NUMBER() OVER(PARTITION BY COLUMN ORDER BY COLUMN)语法解析：row_number() OVER (PARTITION BY COL1 ORDER BY COL2) 表示根据COL1分组，在分组内部根据 COL2排序，而此函数计算的值就表示每组内部排序后的顺序编号（组内连续的唯一的)rank() ov

2017-08-28 11:09:28 1985

原创 Linux常用命令整理

1，file 查看文件的类型 eg:file /etc/services 查看services文件的类型2，man 帮助命令eg：man ls man services （查看配置文件时，不需要配置文件的绝对路径，只需要文件名即可）3，netstat (networkstatistics)主要用于检测主机的网络配置和状况4，ifcon

2017-08-28 08:33:23 192

转载 IDEA的使用

调整界面为酷酷的黑色：Preferences=>Appearance=>theme=>Darcula自动补全：去除自动补全的大小写敏感：Editor=>Code Completion里把Case sensitive completion设置为None就可以了自动展开目录在IntelliJ里从Project左边栏的齿轮上选择Autoscroll to Source和Autoscrol

2017-08-26 11:40:25 205

原创 Spark中广播变量知识点

为什么要使用广播变量，广播变量的好处及用法

2017-08-25 11:00:31 14618

转载 Spark如何做到全局有序

Spark应用了一个分区器叫做（rangePartitioner）rangePartitioner在计算之前，会对数据进行采样（水塘采样）看看一共有多少条数据，数据范围。rangePartitioner会根据下个阶段有多少个分区将数据进行划分。将来在shuffer的时候会将数据shuffer到对应的分区中。在Spark中分区器直接决定了RDD中分区的个数；也决定了RDD

2017-08-24 22:22:18 5599

原创序列化与反序列化

一、序列化和反序列化的概念　　把对象转换为字节序列的过程称为对象的序列化。　　把字节序列恢复为对象的过程称为对象的反序列化。　　对象的序列化主要有两种用途：　　1）把对象的字节序列永久地保存到硬盘上，通常存放在一个文件中；　　2）在网络上传送对象的字节序列。　　在很多应用中，需要对某些对象进行序列化，让它们离开内存空间，入住物理硬盘，以便长期保存。比如最常见的是

2017-07-29 22:20:51 182

caiyefly的博客

原创 ADX,DSP,SSP广告系统搭建

原创 hive参数调优

原创 hive窗口函数

原创 hive函数整理（最全）

原创面试经典sql(大数据)：连续登陆问题

原创面试经典sql(大数据)：同时在线人数

原创大数据学习,Scala编程语言，scala视频学习