大数据
文章平均质量分 60
_Jack_LI
这个作者很懒,什么都没留下…
展开
-
flume数据传输到kafka
flume 简单介绍 当你看到这篇文章时,应该对flume有一个大概了解但是为照顾刚入门的同学所以还是会说下flume,刚开始使用flume时不需要理解太多里面的东西,只需要理解下面的图就可以使用flume把日志数据传入kafka中,下图中的hdfs只是有代表性的sink而以,我在实际使用中sink是kafka...转载 2018-08-01 20:44:33 · 4719 阅读 · 0 评论 -
HIVE元数据存储到MYSQL后因字符集原因导致的中文乱码解决方法
一.个人初始开发环境的基本情况以及Hive元数据库说明①hive的元数据库改成了mysql(安装完mysql之后也没有进行其它别的设置)②hive-site.xml中设置元数据库对应的配置为 jdbc:mysql://crxy99:3306/hive_cz3q?createDatabaseIfNotExist=true③普通情况下咱们的mysql默认编码是latin1,但是我们在...转载 2018-08-07 15:06:25 · 340 阅读 · 0 评论 -
ETL讲解
ETL讲解(很详细!!!) ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。 ETL是BI项目重要的一个环节。 通常情况下,在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关接到BI项目的成败。  ...转载 2018-08-22 09:51:11 · 198 阅读 · 0 评论 -
数据仓库是什么
数据库是最常听到的名词之一了,但是当提到数据仓库的时候,就会疑问,数据仓库是数据库吗? 如果不是,数据仓库是什么,用来干什么的呢? 平时遇到这个问题一般还真是不好简单明了的回答,因为也的确不是一两句话说的清的。那么数据仓库到底是什么呢,跟数据库有什么区别呢? 数据仓库是什么呢?...转载 2018-08-22 09:52:36 · 537 阅读 · 0 评论 -
漫画:什么是数据仓库?
一个故事在很久很久以前,世界上生活着许多种族,有人类,有矮人,有精灵……他们有着不同的信仰,不同的文化,彼此相安无事。可是,有一个猥琐男却偏偏想要统治整个世界。如何统治这么多不同文化信仰的种族呢?猥琐男想出一个馊主意,打造出几枚拥有魔力的戒指,免...转载 2018-08-22 10:13:38 · 189 阅读 · 0 评论 -
做Hive开发要了解的数据仓库知识
1.什么是数据仓库数据仓库,英文名称为DataWarehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。...转载 2018-08-22 10:24:31 · 242 阅读 · 0 评论 -
KAFKA目录结构
找到kafka的安装目录find / -name kafka* -type d [root@DockerHostconfig]# cd/wls/kafka_2.11-0.8.2.1/config[root@DockerHostconfig]# lltotal28-rw-...转载 2018-08-20 17:26:27 · 3778 阅读 · 0 评论 -
pycharm 有些库(函数)没有代码提示的解决办法
问题描述如图,输入变量im. 后没有关于第三方库相应的函数或其他提示,当然,此文档的前提是有相关的函数说明以及已有相关设置等解决方案python是动态强类型语言,IDE无法判断Image.open("Me.jpg")的返回值类...转载 2018-08-31 17:44:00 · 8246 阅读 · 0 评论 -
JAVA基础
一、CoreJava 部分: 基础及语法部分: 1、面向对象的特征有哪些方面? 【基础】 答:面向对象的特征主要有以下几个方面: 1)抽象:抽象就是忽略一个主题中与当前目标无关的那些方面,以便更充分地注意与当前目标有关的方面。抽象并不打算了解全部问题,而只是选择其中的一部分,暂时不用部分细节。抽象包括两个方面,一是过程抽象,二是数据抽象。 2)继承:继承是一种联结类的层次模型,并且允许和...原创 2018-09-05 10:12:21 · 978 阅读 · 0 评论 -
ELK实时日志分析平台环境部署--完整记录
在日常运维工作中,对于系统和业务日志的处理尤为重要。今天,在这里分享一下自己部署的ELK(+Redis)-开源实时日志分析平台的记录过程(仅依据本人的实际操作为例说明,如有误述,敬请指出)~================概念介绍================日志主要包括系统日志、应用程序日志和安全日志。系统运维和开发人员可以通过日志了解服务器软硬件信息、检查配置过程中的错误及错...转载 2018-09-05 19:51:47 · 409 阅读 · 0 评论 -
大数据平台常用组件端口号
常见端口汇总:Hadoop: 50070:HDFS WEB UI端口 8020 : 高可用的HDFS RPC端口 9000 : 非高可用的HDFS RPC端口 ...原创 2018-09-18 10:49:22 · 269 阅读 · 1 评论 -
大数据面试题及答案
Hadoop 相关试题Hive 相关试题1、 hive表关联查询,如何解决数据倾斜的问题? 倾斜原因: map输出数据按key Hash的分配到reduce中,由于key分布不均匀、业务数据本身的特点、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。 1)、key分布不均匀...转载 2018-09-18 22:54:09 · 6628 阅读 · 0 评论 -
hive中解决中文乱码
一.个人初始开发环境的基本情况以及Hive元数据库说明①hive的元数据库改成了mysql(安装完mysql之后也没有进行其它别的设置)②hive-site.xml中设置元数据库对应的配置为 jdbc:mysql://crxy99:3306/hive_cz3q?createDatabaseIfNotExist=true③普通情况下咱们的mysql默认编码是latin1,但是我们在...转载 2018-10-15 11:18:08 · 2484 阅读 · 2 评论 -
Idea使用Maven编译scala和打包jar
下面Maven的pom文件 <properties> <maven.compiler.source>1.8</maven.compiler.source> <maven.compiler.target&转载 2018-11-17 22:49:47 · 2919 阅读 · 0 评论 -
Kafka操作命令
启动Kafka: /export/servers/zookeeper/bin/zkServer.sh start nohup /export/servers/kafka/bin/kafka-server-start.sh /export/servers/kafka/config/server.properties &查看当前服务器中的所有topic bin/kafka-topic...原创 2018-08-01 20:00:49 · 289 阅读 · 0 评论 -
chkconfig使用说明
chkconfig是管理系统服务(service)的命令行工具。所谓系统服务(service),就是随系统启动而启动,随系统关闭而关闭的程序。chkconfig可以更新(启动或停止)和查询系统服务(service)运行级信息。更简单一点,chkconfig是一个用于维护/etc/rc[0-6].d目录的命令行工具。...转载 2018-08-06 10:06:15 · 1320 阅读 · 0 评论 -
史上最详细git教程
史上最详细git教程阅读目录Git是什么 SVN与Git的最主要的区别 在windows上如何安装Git 如何操作 创建版本库 把文件添加到版本库中 版本回退...转载 2018-07-25 13:46:19 · 247 阅读 · 0 评论 -
hbase shell指令
1、这里只是将http://www.yiibai.com/hbase/hbase_update_data.html该网站上的指令进行筛检出来。通用命令 指令 注释 status 提供HBase的状态,例如,服务器的数量 version 提供正在使用HBase版本 tab...转载 2018-07-28 14:36:45 · 258 阅读 · 1 评论 -
linux 文件权限
一、先用ll命令看看linux下的每个目录的详情:每个目录或者文件详情最左端都会有10个字母,我们将10个字母划分为如上图的4个小块来看:上图1:即左数第一个字母,表示该文件性质,-表示文件 d表示目录 l表示软链接 等上图的2、3、4都是文件目录权限的表示:2、3、4分...转载 2018-07-26 20:37:35 · 187 阅读 · 0 评论 -
Hive入门及常用指令
Hive最近在公司实习,对hive进行了学习,做了些整理的笔记。基础命令show databases; # 查看某个数据库use 数据库; # 进入某个数据库show tables; # 展示所有表desc 表名; # 显示表结构show partition...转载 2018-07-30 13:18:08 · 2052 阅读 · 0 评论 -
Hbase region in transition多个场景解决
1、问题描述:hbase在使用过程中,后来创建了两个表,跑任务的时候,出现下面图片中的问题:region in transition 2、什么是RIT状态?As regions are managed by the master and region servers to, for example, bala...转载 2018-07-27 13:09:47 · 575 阅读 · 1 评论 -
linux操作命令
1 显示目录信息 # ls ls -a 列出当前目录下的所有文件,包括以.头的隐含文件 # ls ls -l或ll 列出当前目录下文件的详细信息 # ls ls -a 显示所有文件,包含隐藏。 # ls ls -al 显示所有文件的详细信息。2 查看路径 ...原创 2018-07-27 17:18:59 · 185 阅读 · 0 评论 -
Git远程操作详解(clone、remote、fetch、pull、push)
Git是目前最流行的版本管理系统,学会Git几乎成了开发者的必备技能。 ...转载 2018-08-09 09:26:50 · 388 阅读 · 0 评论 -
sqoop命令
sqoop主要的功能是将hdfs中的数据和mysql数据库中的数据互相导入导出查看数据库:sqoop list-databases -connect jdbc:mysql:localhost:3306 -username xxxx -password xxx查看特定数据库中的数据化sqoop list-table ...转载 2018-07-31 13:27:07 · 2287 阅读 · 0 评论 -
HDFS常用操作命令
- cat 功能:将路径指定文件的内容输出到stdout。 使用方法: hadoop fs -cat URI [URI …] 示例: hadoop fs -cat hdfs://host1:port1/file1 hdfs://host2:port2/file2 #由于配置了core-site.xml,所以可以省略在hdfs对应的url...原创 2018-07-27 19:07:50 · 2142 阅读 · 0 评论 -
hadoop和spark等启动指令
1 hadoop启动指令start-all.sh 启动所有的Hadoop守护进程。包括NameNode、 Secondary NameNode、DataNode、JobTracker、 TaskTrackstop-all.sh 停止所有的Hadoop守护进程。包括NameNode、 Secondary NameNode、DataNode、JobTracker、 TaskTracksta...原创 2018-07-27 20:08:16 · 2664 阅读 · 1 评论 -
大数据点点滴滴积少成多---进阶之路
1. HADOOP 入门 61.1 大数据部分的课程介绍 61.2 学习建议 61.3 就业前景及发展规划 61.4 HADOOP 简介 71.4.1 前言 71.4.2 hadoop 应用场景 71.5 hadoop 集群部署安装 72. HDFS 92.1 hdfs 的shell 操作 102.2 HDFS 的一些概念(概念)和特性 112.3 ...原创 2018-07-27 21:18:13 · 10539 阅读 · 0 评论 -
如何通过TortoiseGit(小乌龟)把本地项目上传到github上
     1.第一步: 安装git for windows(链接:https://gitforwindows.org/)一路next就好了, 如果遇到什么问题可以参考我另外一篇文章~^ - ^ 2.第二步:安装小乌龟(我习惯把TortoiseGit叫成小乌龟,所以接下来所有的T转载 2018-07-28 09:50:30 · 10816 阅读 · 1 评论 -
MySQL安装之yum安装
在CentOS7中默认安装有MariaDB,这个是MySQL的分支,但为了需要,还是要在系统中安装MySQL,而且安装完成之后可以直接覆盖掉MariaDB。1. 下载并安装MySQL官方的 Yum Repository?1[root@BrianZhu /]# wget -i -c http://dev.mysql.com/get/mysql57-community-re...转载 2019-01-17 17:20:05 · 237 阅读 · 0 评论