Big Data
nobody~
这个作者很懒,什么都没留下…
展开
-
SQL中基于代价的优化
还记得笔者在上篇文章无意中挖的一个坑么?如若不知,强烈建议看官先行阅读前面两文-《SparkSQL Join原理》和《Join中竟然也有谓词下推?》第一篇文章主要分析了大数据领域Join的三种基础算法以及各自的适用场景,第二篇文章在第一篇的基础上进一步深入,讨论了Join基础算法的一种优化方案 – Runtime Filter,文章最后还引申地聊了聊谓词下推技术。同时,在第二篇文章开头,笔者引...转载 2020-04-05 17:31:08 · 2026 阅读 · 0 评论 -
Spark&HiveSQL中Join操作的谓词下推?
前言:SparkSQL和HiveSQL的Join操作中也有谓词下推?今天就通过大神的文章来了解下。同样,如有冒犯,请联系。正文上文简要介绍了Join在大数据领域中的使用背景以及常用的几种算法-broadcast hash join 、shuffle hash join以及sort merge join等,对每一种算法的核心应用场景也做了相关介绍,这里再重点说明一番:大表与小表进行join会使...转载 2020-04-03 21:12:28 · 1182 阅读 · 0 评论 -
Storm的通信机制
前言:这篇文章,博客主要介绍下Storm中Worker进程间和进程内部通信的原理和技术。整篇内容仅供了解,如有不足或错误请指出。 Worker间的通信经常需要通过网络跨节点进行,Storm使用ZeroMQ或Netty(0.9以后默认使用)作为进程间通信的消息框架。 Worker进程内部通信:不同worker的thread通信使用LMAX Disruptor来完成。 不同topologey...原创 2018-04-06 21:35:10 · 1059 阅读 · 0 评论 -
Hive的基本操作总结
前言:对于Hive来说最重要的一点就是能够用Hql来进行数据分析。而Hql来处理数据比MapReduce方便很多(原理是一样的,Hql底层转化为MapReduce来处理数据)。而随着技术的发展,编写MapReduce程序来处理数据也许会被慢慢淘汰,而Hql仍会保留下来(原因:1、类SQL语法,学习成本比较低。2、大数据时代对数据开发的需求,需要有这样的数据仓库来支撑。)1、Hive基本...原创 2018-03-29 14:46:47 · 1512 阅读 · 0 评论 -
Yarn在MapReduce中的工作机制
前言:在了解Yarn在MR中的作用的时候需要先了解Yarn是什么。1、YARN概述Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而mapreduce等运算程序则相当于运行于操作系统之上的应用程序 YARN的重要概念 1、 yarn并不清楚用户提交的程序的运行机制 2、 yarn只提供运算资源的调度(用户程序向yarn申请资源,...原创 2018-03-28 21:02:36 · 890 阅读 · 0 评论 -
MapTask、ReduceTask并行度决定机制
前言:MapTask的并行度决定map阶段的任务处理并发度,进而影响到整个job的处理速度。那么,MapTask并行实例是否越多越好呢?其并行度又是如何决定呢?1、mapTask并行度的决定机制一个job的map阶段并行度由客户端在提交job时决定,而客户端对map阶段并行度的规划的基本逻辑为: 将待处理数据执行逻辑切片(即按照一个特定切片大小,将待处理数据划分成逻辑上的多个sp...原创 2018-03-28 16:03:47 · 2911 阅读 · 0 评论 -
20个顶级大数据软件应用程序
转自:https://www.toutiao.com/i6537465076444561934/ 最近看到的一篇不错的文章,分享给大家。(可以看下对于以下的应用各位知道几个)如今,大数据技术对企业来说不再是一种尝试和体验,它已成为企业开展业务的一个重要组成部分。根据调研机构IDC公司的调查,2017年全球大数据和业务分析(BDA)的市场收入将达到1508亿美元,和2016年相比增长12.4%...转载 2018-03-27 19:59:34 · 10120 阅读 · 0 评论 -
初学大数据之模块集成:Pycharm安装numpy,scipy,sklearn等包时遇到的各种问题的一键解决方法
最近在学习机器学习,要用Python写程序,习惯了用IDE软件,所以就使用Pycharm软件。但是在导入类似numpy,sklearn等模块的时候,发现了各种问题(如Python版本与模块之间的兼容等各类问题),上网找了许多方法,最后总算总结出了这条最快捷的方法,那就是使用Anaconda这个软件。 通过在pycharm中导入Anaconda内部的集成模块库(将类似与numpy,scipy等模块...原创 2017-02-23 21:42:05 · 50964 阅读 · 15 评论 -
大数据之SparkSQL简介及DataFrame的使用
前言:本文主要介绍下SparkSQL以及SparkSQL的简单使用。这里只是做了一个非常简单的介绍,后续工作中如果有用到相关的知识,我会再总结。1、Spark SQL1.1、Spark SQL概述1.1.1、什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 ...原创 2018-04-07 20:25:41 · 641 阅读 · 0 评论 -
Storm编程模型总结
前言:对于Storm的编程模型有必要做一个详细的介绍(配合WC案例来介绍)1、Storm编程模型 上图中组件的解释:DataSource:外部数据源Spout:接受外部数据源的组件,将外部数据源转化成Storm内部的数据,以Tuple为基本的传输单元下发给BoltBolt:接受Spout发送的数据,或上游的bolt的发送的数据。根据业务逻辑进行处理。发送给下一个Bolt或者...原创 2018-04-06 17:12:04 · 716 阅读 · 0 评论 -
Storm集群的安装及简单使用
前言:这里先简单说一下Storm的安装的主要步骤,还会介绍下Storm的常用的操作指令以及各个进程对应的日志信息,之后会简单介绍下Storm的源码目录。1、集群部署的基本流程集群部署的流程:下载安装包、解压安装包、修改配置文件、分发安装包、启动集群(其他集群部署通用的流程)下载和解压安装包在这里就省略,直接进入修改配置文件 1.3、修改配置文件 vi /export/ser...原创 2018-04-06 18:23:57 · 1111 阅读 · 0 评论 -
利用Sqoop在数据库和Hive、HDFS之间做ETL操作
目录:一、利用Sqoop,从Oracle到HDFS二、利用Sqoop,从Oracle到Hive目录:一、利用Sqoop,从Oracle到HDFS第一步:把Oracle驱动拷贝到Sqoop安装路径中的lib文件夹下。第二步:切换账户su hdfs第三步:执行import操作sqoop import --connect jdbc:oracle:thin:@...转载 2018-08-30 16:13:00 · 1822 阅读 · 0 评论 -
Sqoop的安装配置及工作机制
目录:1、简介2、sqoop安装2.1、下载并解压2.2、修改配置文件2.3、加入mysql或oracle的jdbc驱动包2.4、验证启动3、Sqoop的原理3.1、代码定制目录:1、简介sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。 导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、H...原创 2018-08-30 16:55:23 · 455 阅读 · 0 评论 -
SecureCRT常用的使用技巧
目录前言:1、SecureCRT 超时自动断开连接的解决办法2、SecureCRT连接Linux时,终端显示乱码的问题。3、SecureCRT使用自动记录日志功能目录前言:由于工作需要,要经常玩SecureCRT,所以还是希望能好好了解下这个软件,以下是一些常用的功能,后续后接着补充。1、SecureCRT 超时自动断开连接的解决办法在利用Sec...原创 2018-08-31 13:32:51 · 3018 阅读 · 0 评论 -
玩Azkaban跳过的坑
文章目录一号坑:启动Azkaban报错:User xml file conf/azkaban-users.xml doesn't exist.二号坑:报错:failed SslSocketConnector@0.0.0.0:8443: java.io.FileNotFoundException: /home/hadoop/app/azkaban/azkaban-web-2.5.0/bin/keys...原创 2018-11-13 15:38:54 · 8067 阅读 · 10 评论 -
HA机制的大数据集群的搭建过程
集群规划说明:1、在hadoop2.0中通常由两个NameNode组成,一个处于active状态,另一个处于standby状态。Active NameNode对外提供服务,而Standby NameNode则不对外提供服务,仅同步active namenode的状态,以便能够在它失败时快速进行切换。主备NameNode之间通过一组JournalNode同步元数据信息,一条数据只要成功写入多数...原创 2018-09-21 17:29:41 · 683 阅读 · 1 评论 -
玩大数据期间碰到的一些问题总结
问题一:Zookeeper节点数量为什么建议是奇数个?原因是:“Zookeeper集群,当有一半以上的节点数在工作中的时候,集群才对外服务”。怎么理解上面这句话呢,用实验数据说话:实验一:设置节点数量为偶数 4, 启动 2 个节点。观察结果:集群不对外服务启动 3 个节点。观察结果:集群开始对外服务实验二:设置节点数量为奇数个 5启动3个节点。观察结果:集群开始对外服务总结:Zo...原创 2018-09-26 09:25:40 · 1055 阅读 · 0 评论 -
Storm任务提交过程及目录树介绍
前言:对于任何一个组件来说,了解它相关的任务提交的过程是非常有必要的(毕竟生产中遇到一些Bug时,你如果知道内部执行的过程,那么会对问题的解决会有很大的帮助)。除此之外还会对Storm相关的目录树进行一个简单的介绍,主要是为了了解下在任务提交过程中一些数据的存储过程。博主也是小菜鸟一枚,如有错误或不足,请各位及时指出,必当及时修正。1、Storm 任务提交的过程任务提交详细过程如下图所...原创 2018-04-06 22:37:12 · 1438 阅读 · 1 评论 -
Storm程序的并发机制原理总结
前言:为了在以后的实践中提高Storm程序执行的效率,我们还是有必要了解下对应的Storm程序的并发机制。(哈哈,虽然以博主小菜鸟的水平还没有接触到这种提升程序效率层面的东西(这里只是空谈理论),但是Storm的并行机制还是有必要了解下,毕竟技多不压身嘛!)1、概念并发度:用户指定的一个任务,可以被多个线程执行,并发度的数量等于线程的数量。一个任务的多个线程,会被运行在多个Wor...原创 2018-04-06 22:12:00 · 688 阅读 · 0 评论 -
大数据之Spark简介及RDD说明
前言:本篇文章只是简单介绍下Spark,然后对Spark的RDD在做一个全面的介绍。由于博主知识有限,这里只是做一个简单的介绍。若有些地方有问题,请大家及时指出。后续随着深入的学习,会再进一步总结自己的学习成果。1、Spark概述1.1、什么是Spark(官网:http://spark.apache.org) Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生...原创 2018-04-07 18:01:07 · 701 阅读 · 0 评论 -
SparkRDD常用算子实践(附运行效果图)
SparkRDD算子分为两类:Transformation与Action. Transformation:即延迟加载数据,Transformation会记录元数据信息,当计算任务触发Action时,才会真正开始计算。 Action:即立即加载数据,开始计算。 创建RDD的方式有两种: 1、通过sc.textFile(“/root/words.txt”)从文件系统中创建 RDD。 2、#通...原创 2017-12-14 20:27:15 · 8726 阅读 · 0 评论 -
在Mysql中显示所有用户的操作教程(Linux环境下)
1.登录数据库 首先,你需要使用如下命令登录到数据库,注意,必须是root用户哦~mysql -u root -p2.查询用户表 在Mysql中其实有一个内置且名为mysql的数据库,这个数据库中存储的是Mysql的一些数据,比如用户、权限信息、存储过程等,所以呢,我们可以通过如下简单的查询语句来显示所有的用户呢。 SELECT User, Host, Password FROM mysql.转载 2017-10-19 23:00:07 · 3844 阅读 · 0 评论 -
大数据集群搭建之hadoop、tomcat、jdk等工具的安装(三)
本章就说下各种软件的安装和配置。一、准备的资源:1、tomcat(如用于在网页上查看HDFS的存储等) 地址:http://pan.baidu.com/s/1miC93ny 密码:52dd 2、jdk 地址:http://pan.baidu.com/s/1mhVWiM0 密码:fmn1 3、Hadoop(最好用centos6.5系统,否则配置时会出现各种BUG) 地址:http://p原创 2017-09-18 22:51:12 · 3260 阅读 · 0 评论 -
大数据集群搭建之节点的网络配置过程(二)
紧接着上一章来设置windows的vmnet8的ip地址和虚拟机中centos的ip地址。NAT虚拟网络的配置图如下图所示: 1、这里根据VMware中得到的网关地址去设置vmnet8的ip地址。 网关地址查看:2、得到的网关地址后去设置vmnet8,将网关地址设置为vmnet8的网关地址,DNS地址;IP地址可以自己设置(只要在同一个局域网就行)。(参考NAT虚拟网络的配置图) 例如:我得到原创 2017-09-17 15:45:07 · 5209 阅读 · 1 评论 -
java.lang.IllegalArgumentException: Does not contain a valid host:port authority: ignorethis
执行Hive语句时突然出现这样的异常:Total MapReduce jobs = 1Launching Job 1 out of 1Number of reduce tasks not specified. Estimated from input data size: 1In order to change the average load for a reducer (in bytes)原创 2017-11-08 23:38:56 · 1026 阅读 · 0 评论 -
大数据之HDFS应用开发(java API)
1、搭建开发环境window下开发的说明: A、在windows的某个目录下解压一个hadoop的安装包 B、将安装包下的lib和bin目录用对应windows版本平台编译的本地库替换 (这里我的环境是win10、hadoop2.6.4。 对应的win10的编译的本地库下载地址:http://pan.baidu.com/s/1dFzYVKH 密码:pdj9) C、在window系统中配置原创 2017-10-31 14:50:03 · 836 阅读 · 0 评论 -
在启动HDFS时,针对集群中namenode无法识别datanode的问题的解决方法
最近由于重装了系统,需要对之前搭建的集群要做些改动。在对每个虚拟机的网络进行正确的配置之后,重新执行hadoop/sbin/start-dfs.sh命令来启动HDFS,然而namenode却无法识别datanode。 后来通过对之前学过的知识进行回顾和梳理发现了问题的所在: 由于场景的改变造成了虚拟机IP地址的改变,在这里虽然在虚拟机中配置网络的IP也做了相应的改变,但是Hadoop集群中的一些原创 2017-07-13 14:25:56 · 5476 阅读 · 0 评论 -
大数据集群搭建之Linux的安装(一)
1、准备工具VMWare、centos mimal版本系统文件。2、工具安装1、安装vmware软件 安装软件地址: VMWare:http://pan.baidu.com/s/1qYnySrE 密码:3t3r centos mimal版本:http://pan.baidu.com/s/1dE5LY6H 密码:gxae 2、启动vmware后的软件界面 3、新建虚拟机 4、选原创 2017-09-17 14:20:02 · 2574 阅读 · 0 评论 -
Linux配置网络出现Eroor adding default gateway的解决方案
最近在学习有关大数据方面的东西,刚开始要搭建模拟的虚拟机集群。用的是Minimal CentOS6.7版本Linux下的系统。因为我要为各个虚拟机设置静态IP,所以就参考网上博客说的进行如下操作: 一、安装完系统后先配置网络: cd /etc/sysconfig/network-scripts 编辑该目录下的这个文件 vi ifcfg-eth0 需要配置这些东西 详细的解释可参考其他原创 2017-05-07 15:00:41 · 3198 阅读 · 0 评论 -
Device eth0 does not seem to be present,delaying initialization的解决办法
最近由于重装了操作系统导致之前配置好的集群出现了问题,需要修正一下,在刚开始为NameNode配置网络设置的时候,已经按照网上的相关步骤配置好了ifcfg-eth0文件中的内容,但在ifconfig时却无法观察到设置的静态IP地址,后来通过service network restart来重启网络却爆出这样的错误:Device eth0 does not seem to be present,dela原创 2017-07-09 18:10:15 · 1926 阅读 · 0 评论 -
HDFS的简介及基本操作(常用的命令参数介绍)
前言:总算有空来接着写大数据的学习笔记了,今天就把之前学过的HDFS的基础知识详细的介绍一下,如有哪点写的不足希望大家多多指教。1、HDFS基本概念1.1、前言: 设计思想 分而治之:将大文件、大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析。 在大数据系统中作用: 为各类分布式运算框架(如:mapreduce,spark,tez,……)提供...原创 2017-10-30 11:29:27 · 1857 阅读 · 0 评论 -
Storm入门简介
前言:在介绍Storm之前,先介绍下离线计算。 离线计算:批量获取数据、批量传输数据、周期性批量计算数据、数据展示 代表技术:Sqoop批量导入数据、HDFS批量存储数据、MapReduce批量计算数据、Hive批量计算数据、azkaban任务调度 与之对应的就是流式计算即Storm的应用场景——流式计算。那么流式计算是什么呢? 流式计算:数据实时产生、数据实时传输、数据实时计算、...原创 2018-01-11 14:23:46 · 426 阅读 · 0 评论 -
大数据之Spark集群安装及简单使用
1、Spark集群安装1.1. 安装1.1.1. 机器部署 准备两台以上Linux服务器,安装好JDK1.7 1.1.2. 下载Spark安装包 下载地址:http://www.apache.org/dyn/closer.lua/spark/spark-1.5.2/spark-1.5.2-bin-hadoop2.6.tgz 上传解压安装包 上传spark-1....原创 2018-04-07 16:30:07 · 583 阅读 · 2 评论 -
大数据之Kafka内部原理详细介绍
前言:本篇文章所介绍的内容还是以了解为主,主要目的还是为了对Kafka有一个更深入的理解。主要介绍了以下几个知识点:Kafka的负载均衡、Producer生产数据、Kafka文件存储机制等(不过总感觉这篇文章总结的乱七八糟。。请大家多多包涵,随着后面的学习,自己会再回过头来进行修改)1、Kafka整体结构Kafka名词解释和工作方式kafka:是一个生产-消费模型。类JMS消...原创 2018-04-07 15:47:00 · 1829 阅读 · 0 评论 -
大数据之Kafka集群安装及简单使用
1、Kafka集群部署1.1、下载安装包 http://kafka.apache.org/downloads.html 在linux中使用wget命令下载安装包 wget http://mirrors.hust.edu.cn/apache/kafka/0.8.2.2/kafka_2.11-0.8.2.2.tgz 1.2、解压安装包 tar -zxvf /export/s...原创 2018-04-07 14:34:17 · 405 阅读 · 0 评论 -
大数据之Kafka入门简介
前言:作为流式计算中的一个组件,对于它的组成以及运行的原理,学习者也需要相关的了解。以下主要简单介绍了kafka是什么以及对应的组件有哪些;除此之外重点介绍了JMS,毕竟JMS也算是Kafka的核心,还是有必要了解一下。1、Kafka是什么在流式计算中,Kafka一般用来缓存数据,Storm通过消费Kafka的数据进行计算。Apache Kafka是一个开源消息系统,由Sca...原创 2018-04-07 14:18:05 · 1326 阅读 · 0 评论 -
大数据面试题总结(附答案)
最近由于要准备面试就开始提早看些面试、笔试题。以下是自己总结的一些经常出现、有价值的试题,包含hadoop、hive、hbase、storm、spark等。答案仅供参考,如有错误,请指出。试题不定时更新。hadoop相关试题MapTask并行机度是由什么决定的? 由切片数量决定的。MR是干什么的? MR将用户编写的业务逻辑代码和自带的默认组件结合起来组成一个完整的分布式应用程序原创 2018-01-02 15:02:27 · 24760 阅读 · 1 评论 -
Hive的相关介绍
前言:为什么使用Hive 直接使用hadoop所面临的问题 人员学习成本太高 项目周期要求太短 MapReduce实现复杂查询逻辑开发难度太大使用Hive的优点: 操作接口采用类SQL语法,提供快速开发的能力。 避免了去写MapReduce,减少开发人员的学习成本。 扩展功能很方便。1、Hive简介1.1、什么是Hive Hive是基于Hadoop的一个数据仓库工...原创 2017-12-29 17:32:02 · 622 阅读 · 0 评论 -
Secondary Namenode的Check point机制以及Namenode、Datanode工作机制说明
前言:在说明checkpoint机制之前,先要了解下namenode、datanode的一些功能和职责。1、NameNode的工作机制问题场景: 1、集群启动后,可以查看文件,但是上传文件时报错,打开web页面可看到namenode正处于safemode状态,怎么处理?(safemode是由于当前的namenode和大部分的datanode未建立完全的链接<即namenod...原创 2017-12-28 23:00:07 · 1126 阅读 · 0 评论 -
大数据开发初学者学习路线
最近看到一篇很不错的文章,献给正在学习大数据的你我他。如果能答出文章中大部分问题,那么恭喜你已经从“小白”进化到“小菜鸟”的阶段。 转自:http://www.ppvke.com/Blog/archives/50967前言其实这就是想告诉你的大数据的三个发展方向,平台搭建/优化/运维/监控、大数据开发/设计/架构、数据分析/挖掘。请不要问我哪个容易,哪个前景好,哪个钱多。导读:...转载 2017-12-27 14:24:33 · 8583 阅读 · 11 评论