大数据_月魂_123123的博客-CSDN博客

大数据

关注

文章平均质量分 56

关注数：文章数：40 文章阅读量：58633 文章收藏量：39

作者: 月魂_123123

这个作者很懒，什么都没留下…

展开

大数据学习2：mysql安装笔记

前期准备：1、CentOS6.52、MySQL安装包（mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz）安装步骤：1、检查环节[root@hadoop001 ~]# ps -ef | grep mysqlroot 1161 1146 0 20:29 pts/1 00:00:00 grep mysql

原创 2017-08-19 23:40:41 · 565 阅读 · 0 评论
大数据学习29：Azkaban3.x的简单理解和单机安装

Azkaban 是一个任务调度框架简单易用易维护，存在任务间依赖关系处理的框架可以记录用户操作，做审计1、特性：Compatible with any version of HadoopEasy to use web UISimple web and http workflow uploads // key-valueProject workspacesS

原创 2017-11-29 19:17:43 · 1187 阅读 · 0 评论
大数据学习25：Hive 中 distribute by 的测试

目标：测试 distribute by 的作用，希望针对user列，将不同的用户分配在不同的reduce中，方便后期计算。======================测试1：reduce 4个，按 length(user) 分配测试2：reduce 4个，按 substr(user,0,2) 分配测试3：reduce 4个，按 user 分配测试4：reduce 5个，按 user 分配测

原创 2017-10-25 10:48:32 · 2892 阅读 · 1 评论
大数据学习28：JAVA 连HBase的API小工具类

JAVA 连HBase的一个小工具类，主要为了记录和理解，实际使用的时候最好将main和其他类分开：package HBase_java_train;import java.io.IOException;import java.io.ObjectInputStream;import java.util.HashMap;import java.util.List;import java.uti

原创 2017-10-31 15:44:13 · 447 阅读 · 0 评论
大数据学习24：hive_sql_累计求和小案例

环境： hive需求：输入数据，每天用户的流量分隔符 \t user date accesspanda 2017-1-01 5tgifshow 2017-1-01 3tyy 2017-1-01 2tlaifeng 2017-1-01 2tpanda 2017-1-02 5tgifshow 2017-1-02 3tyy 2017-1

原创 2017-10-23 11:50:24 · 6899 阅读 · 0 评论
大数据学习23：hadoop-2.6.0-cdh5.7.0 编译，支持 native 和 snappy

目标： hadoop-2.6.0-cdh5.7.0 支持 native 和 snappy，对于压缩需要对hadoop进行编译。检查部署耳朵cdh hadoop是否支持压缩[root@hadoop002 bin]# hadoop checknative -a步骤：之前安装需要的软件和调试，步骤省略：安装findbugs 并配置环境变量安装protobuf-2

原创 2017-10-22 23:05:58 · 620 阅读 · 0 评论
大数据学习22：Apache-Hadoop 2.8.1 集群部署

Apache-Hadoop 集群部署1、准备[root@hadoop001 software]# cat /etc/hosts192.168.137.11 hadoop001192.168.137.12 hadoop002192.168.137.13 hadoop003$HADOOP_HOME /opt/software/hadoopData $HADOOP_HOM

原创 2017-10-22 22:42:18 · 324 阅读 · 0 评论
大数据学习27：Hive元数据清理，从mysql层面删除hive元数据

由于之前配置了hive，hdfs 被格式化了，导致现在hive上原来的元数据没有清理掉。由于hive 上所有元数据均保存在mysql中，所以，可以从mysql上删除表相关信息即可删除hive表，而且不会影响hdfs上数据。分析： hive在mysql上的相关元数据表关系图： Hive在mysql的元数据表的关系和含义这篇博文中有详细字段说明： http://blog.csdn.ne

原创 2017-10-30 22:05:37 · 1388 阅读 · 0 评论
大数据学习21：sqoop 语法和常用命令和小案例

1.1.0 sqoop 语法和常用命令 2.1.0 sqoop 典型用法 3.1.0 sqoop 的一个小案例 4.1.0 sqoop 的分区表导入导出======================================= 1.1.0 sqoop 语法和常用命令 hive导入参数　　--hive-home 重写$HIVE_HOME 　　--hive-import

原创 2017-10-11 17:18:58 · 1070 阅读 · 0 评论
大数据学习30：Azkaban3.x 的 two server mode 部署

Azkaban two server mode 部署接着上次说到的编译，在编译好的目录中找到web 和 executor 。安装 azkaban-web-server解压：/opt/software/azkaban/azkaban/azkaban-web-server/build/distributionstar -xzvf azkaban-web-server-3.39.

原创 2017-11-29 19:41:28 · 822 阅读 · 0 评论
大数据学习31：Elasticsearch 6.0 和 Elasticsearch header 安装记录

Elasticsearch 6.0 和 Elasticsearch header 安装记录------------------------------hosts文件151.101.0.133 raw.githubusercontent.com192.30.255.112 github.com54.231.40.211 github-production-release-asset-2e

原创 2017-12-02 21:53:09 · 4084 阅读 · 0 评论
大数据学习39：ElasticSearch 常用查询2

ES常用查询2 1、子条件查询：特定字段查询所指特定值 Query context 在查询中，除了判断文档是否满足查询条件外，ES还会计算一个_score来标识匹配程度。旨在判断目标文档和查询条件匹配的有多好。常用查询： (1)、全文本查询：针对文本类型数据#模糊匹配1POST 127.0.0.1:9200/book/_search{ "query":{ "m

原创 2017-12-29 17:01:22 · 497 阅读 · 0 评论
大数据学习38：ElasticSearch 基础和常用命令-增删改查

基础概念集群和节点索引：含有相同属性的文档集合，索引通过名字识别，小写英文字母命名，不能中划线数字等类似 database 分片：每个索引都有多个分片，每个分片是一个Lucene索引好处：提高io读写效率分片只能在创建索引的时候指定，后期不能修改备份：拷贝一份分片就完成了分片的备份好处：当主分片不可用，备份即可顶替备份可以查询，可以分摊压力备份可以动态修改类型：索引

原创 2017-12-29 15:07:04 · 1504 阅读 · 1 评论
大数据学习37：DataFrame集合减操作例子

对df1 和 df2 连个文件进程处理，将在df1 里编号并且不在 df2 里编号的数据取出。df1.txt:1 wxk 442 panda 553 monkey 664 tiger 33df2.txt:2 china3 usapackage zuoye11_22import org.apache.spark.sql.SparkSession/**

原创 2017-12-05 20:59:48 · 1384 阅读 · 0 评论
大数据学习36：spark-core 和 spark-sql 学习

一、spark-core：使用spark core 需要定义一个sparkConf ，再将 sparkConf 传入 SparkContext 获得一个 sc 实例。val sparkConf = new SparkConf().setAppName( "Broadcast" ).setMaster( "local[3]" )val sc = new SparkContext( spa

原创 2017-12-05 20:23:22 · 519 阅读 · 0 评论
大数据学习35：一个scala 操控 HDFS 文件目录的小例子

一个scala 操控 HDFS 文件目录的小例子：包含了对文件路径的查看是否存在、删除、创建、重命名、移动。仅作记录。工具类：HDFSUtilpackage Sparktestimport java.io.IOExceptionimport java.net.URIimport org.apache.hadoop.conf.Configurationimport org.apache

原创 2017-12-05 00:07:50 · 3269 阅读 · 0 评论
大数据学习34：grafana 安装和 Nginx 、EL 联调

1、grafana 安装wget https://s3-us-west-2.amazonaws.com/grafana-releases/release/grafana-4.6.2-1.x86_64.rpm为了使用yum方便，直接下载阿里的yum源[root@hadoop001 yum.repos.d]# wget -O /etc/yum.repos.d/CentOS-Base.rep

原创 2017-12-03 17:20:00 · 2168 阅读 · 0 评论
大数据学习33：logstash 和 kibanba 安装以及ELK的联调记录

logstash 和 kibanba 安装以及ELK的联调记录1.Logstash安装[root@hadoop001 elk]# tar -xzvf logstash-6.0.0.tar.gz [root@hadoop001 elk]# cd logstash-6.0.0/[root@hadoop001 logstash-6.0.0]# lltotal 100drwxr

原创 2017-12-03 16:12:25 · 591 阅读 · 0 评论
大数据学习32：Nginx 的安装

Nginx 的安装 1.安装PCRE库[root@hadoop001 ~]# cd /usr/local/[root@hadoop001 local]# tar -zxvf pcre-8.36.tar.gz[root@hadoop001 local]# chown -R root.root pcre-8.36[root@hadoop001 local]# cd pc

原创 2017-12-02 23:07:06 · 289 阅读 · 0 评论
大数据学习26：关于HBase zookeeper 启动过程的一次剖析：

关于hbase zookeeper 启动过程的一次剖析：在做完一些配置后[root@hadoop002 conf]# vi hbase-site.xml <configuration> <property> <name>hbase.rootdir</name> <value>hdfs://hadoop002:8020/hbase</value> </property>

原创 2017-10-29 14:44:33 · 1106 阅读 · 0 评论
大数据学习19：hive元数据库一些查询和分区

有时根据需求，需要对hive中的表批量处理，这时可以到元数据库中进行一些查询操作，操作请慎重！！【mysql】1、查询某表的分区在Spark-sql查询hive表时，会由于元数据中文件与hdfs文件不一致而出现TreeNodeException的异常。比如说，在hive中show partitions时有分区pt=20160601，但是对应HDFS路径下并没有这个子文件夹时，在Spark-

转载 2017-10-05 20:13:57 · 1216 阅读 · 0 评论
大数据学习12：Hive的整体框架和DDL整理

一、hive的框架hadoop是一个海量分布式存储和计算的框架，hdfs负责存储，yarn调度，MapReduce计算。相对于MapReduce编程的不足，产生了hive的框架：1）MapReduce繁琐：要写mapper，reducer，driver，package2）海量数据存放在hdfs，如何快速对hdfs上的文件进行统计分析操作。①学java，学mapr②DBA：s

原创 2017-09-14 18:12:23 · 461 阅读 · 0 评论
大数据学习6：HDFS的一些理解

HDFS的一些理解---------------------------------一、HDFS 的3个部分二、jps命令三、文件的读写流程：四、进程五、几个hdfs常用命令：---------------------------------一、HDFS 的3个部分namenode 作用（1）类似于维护文件系统，名字，时间，大小（2）

原创 2017-08-29 00:24:05 · 464 阅读 · 0 评论
大数据学习10：HDFS-HA原理和理解

核心思路：在Active NN和Standby NN之间要有个共享的存储日志的地方，Active NN把EditLog写到这个共享的存储日志的地方，Standby NN去读取日志然后执行，这样Active和Standby NN内存中的HDFS元数据保持着同步。一旦发生主从切换Standby NN可以尽快接管Active NN的工作目录：一、SPOF（single point offai

转载 2017-09-05 15:58:29 · 660 阅读 · 0 评论
大数据学习9：HDFS读写流程理解

HDFS读写流程：1.一般的文件读取操作包括：open、read、close等客户端读取数据过程，其中1、3、6步由客户端发起：客户端首先获取FileSystem的一个实例，这里就是HDFS对应的实例：①客户端调用FileSystem实例的open方法，获得这个文件对应的输入流，在HDFS中就是DFSInputStream②构造第一步中的输入流DFSInputStr

转载 2017-09-05 15:54:38 · 363 阅读 · 0 评论
大数据学习8：YARN的工作原理

YARN工作原理： YARN比MapReduce1更具一般性，实际上MapReduce只是YARN应用的一种形式。相比经典的MapReduce来说，YARN的顶层包括更多的实体：(1)client客户端。(2)YARN资源管理器。负责协调集群上计算资源的分配。(3)YARN节点管理器。负责启动和监视集群中机器上的计算容器。(4)应用程序master。负责协调运行MapR

转载 2017-09-04 09:31:40 · 512 阅读 · 0 评论
大数据学习：MAVEN编译下载太慢，修改为阿里源做法

在使用MAVEN中，编译时download很慢是由于使用默认的源进行下载，这里手动修改 $MAVEN_HOME/conf/settings.xml文件，找到mirror段，进行如下修改即可。* * nexus-aliyun http://maven.aliyun.com/nexus/content/groups/public

原创 2017-08-21 23:59:34 · 481 阅读 · 1 评论
大数据学习1：大数据平台基础环境搭建：vm虚机搭建+网络调试+克隆+本地yum配置

一、VM虚机安装win7装vm后会出现一个报错：虚拟环境的长模式被禁用解释：笔记本或台式机没开虚拟化，在BIOS里调整cpu什么的建hadoop001,hadoop002,hadoop0032G内存，40G，二、调整系统（1）调网卡，能访问外网 ①在操作系统将网络共享，关win7防火墙 ②调整vm的nat网卡，修改ip ③修

原创 2017-08-14 18:04:20 · 846 阅读 · 1 评论
大数据学习3：hadoop编译和伪分布式部署

本文用于记录hadoop编译和伪分布式部署的安装记录。1、检查是否安装过，是否有残留，检查hosts配置ps -ef | grep hadoopfind / -name hadoop[hadoop@hadoop001 ~]$ cat /etc/hosts 127.0.0.1 localhost localhost.localdomain localhost4 loc

原创 2017-08-20 23:08:39 · 422 阅读 · 0 评论
大数据学习15：报错 FAILED: SemanticException Unable to determine if

大数据学习15：FAILED: SemanticException Unable to determine if报错：由于修改了hdfs 的端口，导致报错，这里是因为使用UDF自定义函数，hive要将hfds上的jar传入分布式缓存中，并且mysql中元数据未修改导致。 hive (default)> select ename ,hello(ename) from emp; converting

原创 2017-09-22 23:10:43 · 7790 阅读 · 1 评论
大数据学习13：Hive的DML整理，查询走MapReduce还是走Fetch

Hive的DML整理：小问题：如何不通过访问meta data数据来获取我们指定表的字段hive> desc formatted emp; DML 加载数据：load关键字local 有：本地文件系统；没有：HDFS关键字filepath 文件路径关键字overwrite 有：覆盖；没有：追加关键字tablename：表名多次load overwr

原创 2017-09-15 16:34:49 · 440 阅读 · 0 评论
大数据学习18：Hive在mysql的元数据表的关系和含义

在大数据中，很多情况下是将hive的元数据存放在mysql数据库中，通过hive配置的连接字符串： javax.jdo.option.ConnectionURL jdbc:mysql://localhost:3306/hive3?createDatabaseIfNotExist=true 能确认连

原创 2017-10-05 19:39:33 · 1652 阅读 · 0 评论
大数据学习20：Maven 理解和 spark、hadoop、hive编译

一、Maven的一些含义：groupId定义了项目属于哪个组，这个组往往和项目所在的组织或公司存在关联。譬如你在googlecode上建立了一个名为myapp的项目，那么groupId就应该是com.googlecode.myapp，如果你的公司是mycom，有一个项目为myapp，那么groupId就应该是com.mycom.myappartifactId定义了当前Mav

转载 2017-10-10 09:57:27 · 414 阅读 · 0 评论
将自定义函数 helloUDF2 注册到hive 源码中，并且重新编译hive

环境: hive-1.1.0-cdh5.7.0 包放在了 /root 下面 cdh 采用 cdh5.7.0 目标：将自定义函数 helloUDF2 注册到hive 源码中，并且重新编译hive1、编写UDF (1)使用idea+maven，在maven中添加相关参数。重要的是 hadoop-common 、hive-exec 、hive-jdbc 以下为我的maven，文件头修改

原创 2017-09-29 14:52:59 · 343 阅读 · 0 评论
大数据学习5：hdfs和yarn 的学习记录

大数据学习5：hdfs和yarn 的学习记录=======================一、hdfs启动过程的解析二、hdfs配置参数三、yarn资源调度配置四、hdfs使用，yarn的任务检查五、配置过程中的检查========================一、hdfs启动过程的解析在伪分布式hadoop部署中，启动hdfs [ha

原创 2017-08-26 16:58:47 · 776 阅读 · 0 评论
大数据学习7：Hadoop Yarn 的调优整理

Hadoop Yarn 的调优整理：对于Yarn的调优，主要从内存和CPU的角度去调整。应从集群所有节点的角度去考虑计算资源，根据Application申请的资源进行分配container（容器）。Container 是Yarn中资源分配的最小单元，包含了一定的内存和CPU资源。在集群中，调整内存，CPU，磁盘的资源的平衡性很重要，根据经验，每2个Container使用一块磁盘和1个CPU

转载 2017-09-03 08:57:57 · 471 阅读 · 0 评论
大数据学习12：Hive环境搭建

Hive环境搭建Hadoop生态圈软件下载地址：http://archive.cloudera.com/cdh5/cdh/5/==================================Hadoop部署 hadoop-2.6.0-cdh5.7.0.tar.gzHive部署 hive-1.1.0-cdh5.7.0.tar.gz需要有java需要已经部署好mysql

原创 2017-09-14 08:59:45 · 272 阅读 · 0 评论
大数据学习14：Hive中Join的原理和机制

Hive中Join的原理和机制转自:http://lxw1234.com/archives/2015/06/313.htm笼统的说，Hive中的Join可分为Common Join（Reduce阶段完成join）和Map Join（Map阶段完成join）。本文简单介绍一下两种join的原理和机制。Hive Common Join如果不指定MapJo

转载 2017-09-19 15:52:55 · 495 阅读 · 0 评论
大数据学习11：Maven编译报错以及解决方法，配置aliyun库

一、场景在用maven对 hadoop，spark等进行源码编译的时候，经常会遇到编译报错。以下为一些解决办法。二、报错与分析排查：[ERROR] Failed to execute goal org.apache.maven.plugins:maven-remote-resources-plugin:1.5:process (default) on project spark

原创 2017-09-07 23:29:26 · 7728 阅读 · 0 评论
大数据学习40：Flume metric 注解

启动flume监控的一种方式：flume-ng agent \--name a1 \--conf $FLUME_HOME/conf \--conf-file $FLUME_HOME/conf/exec-memory-hdfs-partition.conf \-Dflume.root.logger=INFO,console \-Dflume.monitoring.type=http \-D

原创 2018-03-06 20:10:41 · 1202 阅读 · 0 评论

大数据

作者: 月魂_123123

大数据学习2：mysql安装笔记

大数据学习29：Azkaban3.x的简单理解 和 单机安装

大数据学习25：Hive 中 distribute by 的测试

大数据学习28：JAVA 连HBase的API小工具类

大数据学习24：hive_sql_累计求和小案例

大数据学习23：hadoop-2.6.0-cdh5.7.0 编译，支持 native 和 snappy

大数据学习22：Apache-Hadoop 2.8.1 集群部署

大数据学习27：Hive元数据清理，从mysql层面删除hive元数据

大数据学习21：sqoop 语法和常用命令和小案例

大数据学习30：Azkaban3.x 的 two server mode 部署

大数据学习31：Elasticsearch 6.0 和 Elasticsearch header 安装记录

大数据学习39：ElasticSearch 常用查询2

大数据学习38：ElasticSearch 基础和常用命令-增删改查

大数据学习37：DataFrame集合减操作例子

大数据学习36：spark-core 和 spark-sql 学习

大数据学习35：一个scala 操控 HDFS 文件目录的小例子

大数据学习34：grafana 安装 和 Nginx 、EL 联调

大数据学习33：logstash 和 kibanba 安装以及ELK的联调记录

大数据学习32：Nginx 的 安装

大数据学习26：关于HBase zookeeper 启动过程的一次剖析：

大数据学习19：hive元数据库一些查询和分区

大数据学习12：Hive的整体框架和DDL整理

大数据学习6：HDFS的一些理解

大数据学习10：HDFS-HA原理和理解

大数据学习9：HDFS读写流程理解

大数据学习8：YARN的工作原理

大数据学习：MAVEN编译下载太慢，修改为阿里源做法

大数据学习1：大数据平台基础环境搭建：vm虚机搭建+网络调试+克隆+本地yum配置

大数据学习3：hadoop编译和伪分布式部署

大数据学习15：报错 FAILED: SemanticException Unable to determine if

大数据学习13：Hive的DML整理，查询走MapReduce还是走Fetch

大数据学习18：Hive在mysql的元数据表的关系和含义

大数据学习20：Maven 理解 和 spark、hadoop、hive编译

将自定义函数 helloUDF2 注册到hive 源码中，并且重新编译hive

大数据学习5：hdfs和yarn 的学习记录

大数据学习7：Hadoop Yarn 的调优整理

大数据学习12：Hive环境搭建

大数据学习14：Hive中Join的原理和机制

大数据学习11：Maven编译报错以及解决方法，配置aliyun库

大数据学习40：Flume metric 注解

大数据学习29：Azkaban3.x的简单理解和单机安装

大数据学习34：grafana 安装和 Nginx 、EL 联调

大数据学习32：Nginx 的安装

大数据学习20：Maven 理解和 spark、hadoop、hive编译