大数据
奔跑的乌班
wobuxiangxie
展开
-
比较完整的hadoop集群组件的安装教程
操作系统:centos7.4内核:3.10.0-693.el7.x86_64前提:关闭seliunx和firewalld所有软件包统一上传到/usr/local/src下面集群环境192.168.217.136 master192.168.217.137 slave1192.168.217.138 slave2设置免密钥登录:master节点执行:ssh-keygen...原创 2019-02-17 16:03:09 · 2417 阅读 · 1 评论 -
spark-env.sh配置参数详解
Spark记录-spark-env.sh配置 环境变量含义SPARK_MASTER_IPmaster实例绑定的IP地址,例如,绑定到一个公网IPSPARK_MASTER_PORTmater实例绑定的端口(默认7077)SPARK_MASTER_WEBUI_PORTmaster web UI的端口(默认8080)SPARK...转载 2019-04-06 15:26:10 · 7037 阅读 · 0 评论 -
Spark常用算子概述
Spark的算子的分类 从大方向来说,Spark 算子大致可以分为以下两类: 1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。 Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Ac...转载 2019-03-31 10:10:05 · 328 阅读 · 0 评论 -
spark重分区算子repartition和coalesce解析
在spark中,有时候我们觉得task并行度太小,就想着提高其并行度。 首先,先说一下有多少种增加分区提高并行度的方法:1,textFile(path, numPartion=partitionNum)2,增加hdfs上的block数3,reduceByKey groupByKey shuffl...原创 2019-04-04 00:40:51 · 2049 阅读 · 0 评论 -
推荐引擎模型架构和排序模型概述
排序模型推荐引擎模型架构解释 对指定用户进行推荐,这里我们必须明确两个重要的id,即userid和itemid。 1,推荐引擎获得userid和itemid,从数据库进行召回,形成推荐item列表,假如说这里召回300个item:score。 2,对于召回的item,我们通过基于内容和协同过滤的方式同时召回,而且这里召回的过程中有排序的过程,在这个阶段称之为粗排;但是此时两种不同...原创 2019-03-18 19:56:30 · 632 阅读 · 0 评论 -
大数据技术生态体系组件概述
大数据架构如下图所示:图中涉及的技术名词解释如下:1)Sqoop:sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle 等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。2)Flume:Flume是Cloudera提供的一个高可用的,高可...原创 2019-03-12 15:04:33 · 1295 阅读 · 0 评论 -
sqoop操作方法和原理
一、sqoop顾名思义:sql-to-hadoop,从中我们可以看出sqoop名字的由来,即sq + oop。1.1、sqoop简介sqoop是一个用来将hadoop中hdfs和关系型数据库中的数据相互迁移的工具,可以将一个关系型数据库(mysql、oracle等)中的数据导入到hadoop的hdfs中,也可以将hdfs的数据导入到关系型数据库中。1.2、sqoop的特点:sqoop...原创 2019-03-09 11:33:00 · 767 阅读 · 0 评论 -
ROW_NUMBER() OVER()函数用法详解 (分组排序 例子多)
转载自:https://blog.csdn.net/qq_25221835/article/details/82762416,感谢作者的分享 原 ROW_NUMBER() OVER()函数用法详解 (分组排序 例子多) 2018年09月18日 19:11:38 一彡十 ...转载 2019-03-08 19:45:28 · 1407 阅读 · 0 评论 -
flume学习笔记
1.flume概述1.1.flume概念1.1.1.flume概念flume是分布式的,可靠的,高可用的,用于对不同来源的大量的日志数据进行有效收集、聚集和移动,并以集中式的数据存储的系统。flume目前是apache的一个顶级项目。1.1.2.系统需求flume需要java运行环境,要求java1.6以上,推荐java1.7.1.2.下载安装flume1.2.1.下载flume:...原创 2019-03-08 15:29:23 · 336 阅读 · 0 评论 -
Hadoop运行环境搭建
1环境搭建基本配置:centos6.5主机内存:16g虚拟机版本:12pro1.1 虚拟机网络模式设置为NAT最后,重新启动系统。[root@hadoop101 ~]# sync[root@hadoop101 ~]# reboot1.2 克隆虚拟机1)克隆虚拟机2)启动虚拟机1.3 修改为静态ip1)在终端命令窗口中输入[root@hadoop101 ...原创 2019-02-18 13:37:09 · 357 阅读 · 0 评论 -
hadoop中使用Python语言实现wordcount功能
run.shHADOOP_CMD="/usr/local/src/hadoop-2.6.5/bin/hadoop"STREAM_JAR_PATH="/usr/local/src/hadoop-2.6.5/share/hadoop/tools/lib/hadoop-streaming-2.6.5.jar"INPUT_FILE_PATH_1="/The_Man_of_Prop原创 2019-02-18 09:05:38 · 1854 阅读 · 0 评论 -
hmaster进程自动关闭,报错:org.apache.hadoop.hbase.util.FileSystemVersionException
2019-02-17 11:19:42,040 FATAL [master:16000.activeMasterManager] master.HMaster: Failed to become active masterorg.apache.hadoop.hbase.util.FileSystemVersionException: HBase file layout needs to be u...原创 2019-02-17 12:07:14 · 1556 阅读 · 4 评论 -
AttributeError: 'DataFrame' object has no attribute 'map'
[root@master pyspark]# spark-submit spark_python_sql.py19/05/04 17:03:16 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicableUsi...原创 2019-05-04 17:12:34 · 5517 阅读 · 0 评论