大数据学习,Scala编程语言,scala视频学习

此篇文章的目的是帮助想从事大数据工作方向的没有编程基础的人员,或者有一定的java编程基础的人员。 为什么使用scala作为大数据编程语言? 1,首先scala是一门优雅的编程语言,何为优雅形象的说就是api更加人性化,不需要像java一样要写大量的代码。 2,对于从事java语言开发的同学...

2019-02-11 15:39:03

阅读数 93

评论数 0

hadoop集群遇到的奇怪问题

安装Hadoop-2.8.0集群问题整理 原因:主机名与ip映射出现问题,导致其它节点找不到namenode。主机名不能带有下划线。   问题描述:使用start-all.sh启动后,使用jps查看没有namenode进程。其它节点也没有datenode进程。 Log中报错(nam...

2017-12-24 17:15:02

阅读数 132

评论数 0

搭建zookeeper集群遇到的问题整理

1,如果使用的是公网Ip在配置好以后会报错,应该使用内网IP。 2,http://blog.csdn.net/weiyongle1996/article/details/73733228

2017-12-21 12:28:56

阅读数 149

评论数 0

kafka连接问题

问题描述:ERROR Error when sending message to topic helloworld with key: null, value: 3 bytes with error: (org.apache.kafka.clients.producer.internals.Err...

2017-12-13 16:08:29

阅读数 2411

评论数 0

redis在linux系统下客户端命令

keys * 取出当前匹配的所有key > exists larry (integer) 0 当前的key是否存在 del lv 删除当前key expire 设置过期时间 > expire larry 10 (integer) 1 >...

2017-10-24 16:40:28

阅读数 1108

评论数 0

JVM调优总结

堆大小设置 [plain] view plain copy java   -Xmx3550m   -Xms3550m   -Xmn2g   -Xss128k   -Xmx3550m:设置JVM最大可用内存为3550M。 -Xms3550m:设置JVM初始内存为3550m...

2017-09-24 20:35:14

阅读数 126

评论数 0

虚拟机性能监控和故障处理工具

给系统定位问题,知识、经验是关键基础,数据时依据,工具是运用知识处理数据的手段。 数据:运行日志    异常堆栈  GC日志  线程快照(threaddump/javacore文件)  堆转储快照(heapdump/hprof文件) 一 JDK命令行工具 1  jps  虚拟机...

2017-09-24 20:28:23

阅读数 169

评论数 0

JVM垃圾收集算法及垃圾收集器

根搜索算法 (收集垃圾) 根搜索算法是从离散数学中的图论引入的,程序把所有的引用关系看作一张图,从一个节点GC ROOT开始,寻找对应的引用节点,找到这个节点以后,继续寻找这个节点的引用节点,当所有的引用节点寻找完毕之后,剩余的节点则被认为是没有被引用到的节点,即无用的节点。 目前j...

2017-09-24 20:25:06

阅读数 95

评论数 0

ETL

为提高数据仓库数据质量,需要在ETL过程进行数据清洗。本文首先提出了ETL过程进行数据清洗应解决的问题,然后通过分析现有的ETL处理方式说明应采用数据库中的ETL处理,介绍了数据质量和数据清洗的原理并提出了数据清洗在ETL中的应用模型,最后通过实例说明数据清洗的具体实现。     ...

2017-09-21 22:09:41

阅读数 399

评论数 0

Scala知识点整理

scala是一门多范式编程语言(面向对象,函数式编程) 1,scala中定义一个类不用提供对外的set,get方法。 2,伴生对象:一定是object+类名。且在同一文件中。特点:可以访问类中被private修饰的属性和方法。private[this],  加上this后,伴生对象也不能使用。...

2017-09-20 21:53:57

阅读数 591

评论数 0

scalikeJDBC

ScalikeJDBC基于SQL的简介DB访问 1.  什么是ScalikeJDBC ScalikeJDBC是一款给Scala开发者使用的简洁DB访问类库,它是基于SQL的,使用者只需要关注SQL逻辑的编写,所有的数据库操作都交给ScalikeJDBC。这个类库内置包含了JDBC API,并且给用...

2017-09-20 21:07:34

阅读数 3096

评论数 0

HIVE

1.11 什么是HIVE Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能 1.12为什么使用HIVE 01  直接使用hadoop所面临的问题 人员学习成本太高 项目周期要求太短 MapReduce实现复杂查询逻辑开发难度太大...

2017-09-20 19:32:03

阅读数 117

评论数 0

zookeeper在kafka中的作用

简介 Kafka使用zookeeper作为其分布式协调框架,很好的将消息生产、消息存储、消息消费的过程结合在一起。同时借助zookeeper,kafka能够生产者、消费者和broker在内的所以组件在无状态的情况下,建立起生产者和消费者的订阅关系,并实现生产者与消费者的负载均衡。   从拓扑...

2017-09-11 22:24:46

阅读数 584

评论数 0

Hadoop中的zookeeper

一,zookeeper的作用 1,替用户管理小体量的数据。(比如:帮助Hbase管理顶级索引信息) 2,替用户监听指定的数据(当数据发生变化时,用户会得到通知。比如:在典型的Kafka集群中, Kafka通过Zookeeper管理集群配置,选举leader,以及在Consumer Group发生变...

2017-09-11 22:13:28

阅读数 183

评论数 0

Hbase客户端操作api

1,创建一张表 import java.io.FileInputStream; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import ...

2017-09-10 17:30:23

阅读数 85

评论数 0

Hadoop中的Hbase

一,Hbase的介绍与个人理解 1,Hbase是一个分布式数据库,主要用来做联机的事务处理。它是一个No SQL 数据库。里面存储的数据都是K,V类型的数据,与另一个分布式数据库Redis类似。而不同于Mysql中的数据库表模型(三范式)。 2,Hbase具备实时的增删改查功能,以后我们做实时的数...

2017-09-07 16:02:27

阅读数 202

评论数 0

CtonOS7命令整理

#查看服务状态 systemctl status NetworkManager #停止服务 systemctl stop NetworkManager #启动服务 systemctl start NetworkManager #禁止服务开机启动 systemctl disable NetworkM...

2017-09-06 20:47:11

阅读数 183

评论数 0

Redis

http://blog.csdn.net/xyang81/article/details/51918129

2017-09-05 08:37:47

阅读数 81

评论数 0

单例模式

/** * Created by chao on 2017/9/4. * 懒汉式 */ public class Singleton { private static Singleton instrance; private Singleton(){} public ...

2017-09-04 13:14:44

阅读数 106

评论数 0

Hadoop中的Yarn

一:部署 1,nodeManager在物理机上应该跟datanode在一起       map端将来会到HDFS上读取数据       reduce端将来会写数据到HDFS上 2,resource Manager 应该独立部署在一台物理机上。 二:说明 1,yarn是一个分布式程序的运...

2017-09-03 20:13:17

阅读数 150

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭