大数据学习
BackToMeNow
时间记录在2017-01-20............
展开
-
关于spark RESTFUL API 的使用注意事项
Spark 监控信息 API 地址https://spark.apache.org/docs/latest/monitoring.html#rest-api要注意的是,当任务是运行在yarn集群上时,网址不再是localhost:4040,而是active-rm-address:port后面的地址信息页不再是/api/v1,而是要加上代理路径/proxy/application_id/api/v1/…给一个在yarn上获取StreamingBatch信息的使用示例:http://<ac原创 2022-01-07 11:10:08 · 876 阅读 · 0 评论 -
HIve修改字段或者增加字段后,Spark访问不生效问题
问题重现(例)当我将数据存储格式改变,或者增加一列的时候,我习惯使用了alter table add …来实现原来的表:ALTER TABLE test ADD COLUMNS (weight STRING) CASCADE加上一列weight字段后(这里使用cascade就是为了同步到hivemetastore),我用spark向表插入一个带有weight字段的表,此时抛出异常Exception in thread "main" org.apache.spark.sql.AnalysisEx原创 2020-05-28 14:59:42 · 2652 阅读 · 7 评论 -
spark.rdd.MapPartitionsRDD cannot be cast to streaming.kafka010.HasOffsetRange
1.问题重现当我想通过redis去维护offset的时候,习惯性的写上了以下程序 inputDS.map(log => log.value()).foreachRDD { rdd => //redis管理offset val ranges: Array[OffsetRange] = rdd.asInstanceOf[HasOffsetRanges].o...原创 2019-12-26 18:57:08 · 1029 阅读 · 3 评论 -
配置HiveOnTez时,出现了找未知端口的情况,解决
1.问题重现https://bbs.csdn.net/topics/394525960,这是我提问的帖子,但是并没人理我。。。。。。。。2.解决历程1.深入源码,看到hive源码有读取这样的一个配置(不想再去找了)hive.downloaded.resources.dir,去寻找一些资源文件2.在配置文件中找到了这个配置,因为我在搭建hive的时候,图省事,就把所有的${system:...原创 2019-11-22 16:51:23 · 693 阅读 · 0 评论 -
ELK 一键启动脚本,总想着怎么偷懒
假的都是假的--------------------------------东拼西凑的脚本还挺好使#!/bin/shPATH=$PATH. /etc/init.d/functionsstart() { if [ `ps aux|grep elasticsearch | grep -v grep|wc -l` -eq 0 ];then if [ `whoami` =...原创 2019-11-21 14:23:13 · 396 阅读 · 0 评论 -
使用ElasticSearch在bulk导入json数据时,The bulk request must be terminated by a newline [\n]
问题重现输入命令curl -XPOST -H 'Content-Type:application/json' 'xxxx:9200/bank/account/_bulk?pretty' -d "./acc.json"报了如下的错误:{ "error" : { "root_cause" : [ { "type" : "illegal_argument...原创 2019-11-21 13:36:06 · 7752 阅读 · 1 评论 -
ElasticSearch介绍及基本API
1. ES基本介绍https://blog.csdn.net/achuo/article/details/87865141Elasticsearch学习,请先看这一篇!内容比较完备,推荐阅读2. API操作练习 <dependency> <groupId>junit</groupId> <artifac...原创 2019-11-21 11:24:29 · 183 阅读 · 0 评论 -
redis 基础API 操作五种数据类型
import org.junit.After;import org.junit.Before;import org.junit.Test;import redis.clients.jedis.Jedis;import java.util.LinkedHashMap;import java.util.List;import java.util.Map;import java.util....原创 2019-11-21 11:07:18 · 251 阅读 · 0 评论 -
kafka 总结 以及 JavaAPI 操作kafka生产者和消费者
首先准备两个配置文件到resourcesproducer.properties# Licensed to the Apache Software Foundation (ASF) under one or more# contributor license agreements. See the NOTICE file distributed with# this work for ad...原创 2019-11-21 10:48:33 · 323 阅读 · 0 评论 -
SparkStreaming简单总结一下和几个小案例,整合kafka
1. SparkStreaming是什么SparkStreaming对于Spark核心API的拓展,从而支持对于实时数据流的可拓展,高吞吐量和容错性流处理。数据可以由多个源取得,例如:Kafka,Flume,Twitter,ZeroMQ,Kinesis或者TCP接口,同时可以使用由如map,reduce,join和window这样的高层接口描述的复杂算法进行处理。最终,处理过的数据可以被推送到...原创 2019-11-21 10:29:19 · 708 阅读 · 0 评论 -
SparkSQL 简单总结一下和一个WC案例
SparkSQL总结:一、Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame,并且作为分布式SQL查询引擎的作用二、什么是DataFrames??与RDD类似,DataFrames也是一个分布式数据容器;然而DataFrame更像传统数据库的二维表格,除了数据以外,还记录数据的结构信息,即schema;同时与Hive类似,DataFra...原创 2019-11-21 09:51:16 · 224 阅读 · 0 评论 -
redis 笔记 简介 数据类型
Redis概述(参考:https://www.runoob.com/redis/redis-conf.html)Redis介绍Redis的安装(单机版,集群版,分布式集群版)redis实操: 数据类型(常用的五大数据类型,string,list,set,hash,zset) 命令行 java apiRedis介绍说明:①redis是基于内存的nosql的数据库。(nosql:...原创 2019-11-19 16:38:09 · 196 阅读 · 0 评论 -
redis集群优化,JedisCluster实现Pipeline功能,进而实现批处理
前提redis在集群模式下无法使用Pipeline进行批处理,在一定生产环境下降低了开发效率,于是手写了一个pipeline处理工具,以实现一个基础的批处理我们知道,普通的情况下,redis client与server之间采用的是请求应答的模式,即:Client: command1Server: response1Client: command2Server: response2...原创 2019-11-19 16:25:14 · 1313 阅读 · 0 评论 -
SparkCore 简单总结一下
三大数据结构:—RDD:弹性分布式数据集------定义:---------数据集:存数的数据的计算逻辑---------分布式:数据的来源&计算&数据的存储,都可以是分布式的---------弹性:------------1.血缘(依赖关系):spark可以通过特殊的处理方案减少依赖关系(checkpoint)------------2.计算:Spark的计算是基于...原创 2019-11-16 09:01:35 · 215 阅读 · 3 评论 -
Spark第二天的RDD概念
3.25.15 RDD概念(重要)RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度。在之前学习MR...原创 2019-11-04 21:35:12 · 148 阅读 · 0 评论 -
Spark第一天的小概念
1、什么是RDDRDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合.Dataset:一个数据集,简单的理解为集合,用于存放数据的Distributed:它的数据分布式存储,并且可以做分布式的计算Resilient:弹性的它表示的是数据可以保存在磁盘,也可以保存在内...原创 2019-11-04 21:02:28 · 179 阅读 · 0 评论 -
Spark32种常用的算子(第三天练习)
官方文档上列举共有32种常见算子,包括Transformation的20种操作和Action的12种操作。(注:以下截图为windows下运行结果)Transformation:1.mapmap的输入变换函数应用于RDD中所有元素,而mapPartitions应用于所有分区。区别于mapPartitions主要在于调用粒度不同。如parallelize(1 to 10, 3),map函数执...转载 2019-11-04 14:32:44 · 357 阅读 · 0 评论 -
浅探scala闭包
维基百科----闭包In programming languages, a closure (also lexical closure or function closure) is a technique for implementing lexically scoped name binding in a language with first-class functions.从概念角度...原创 2019-10-30 21:11:58 · 150 阅读 · 0 评论 -
HDFS JAVA客户端的权限错误:Permission denied
错误:org.apache.hadoop.security.AccessControlException: org.apache.hadoop.security .AccessControlException: Permission denied: user=Administrator, access=WRITE, inode=“hadoop”: hadoop:supergroup:rwxr-x...原创 2019-10-23 16:12:15 · 429 阅读 · 0 评论 -
在Windows 平台下 执行MR任务报错/bin/bash: 第 0 行:fg: 无任务控制
Failing this attempt.Diagnostics: Exception from container-launch.Container id: container_1571811640353_0010_02_000001Exit code: 1Exception message: /bin/bash: 第 0 行:fg: 无任务控制Stack trace: ExitCod...原创 2019-10-23 16:01:56 · 2065 阅读 · 0 评论 -
简单了解一下布隆过滤器
前言今天碰到个业务,他的 Redis 集群有个大 Value 用途是作为布隆过滤器,但沟通的时候被小怼了一下,意思大概是 “布隆过滤器原理都不懂,还要我优化?” 。技术菜被人怼认了、怪不得别人,自己之前确实只是听说过这个,但是没深入了解过,趁这个机会补充一下知识。在进入正文之前,之前看到的有句话我觉得说得很好:Data structures are nothing different. T...转载 2019-10-16 20:47:40 · 131 阅读 · 0 评论 -
数仓OLAP|OLTP概念的整理
概述,对比数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(On-Line Analytical Processing)。OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。OLTP...原创 2019-10-16 20:15:30 · 397 阅读 · 0 评论 -
Centos7 安装nginx以及搭建基于nginx的本地yum服务器
1.安装nginx我尝试了两个下载nginx的途径,第一个是源码编译安装(推荐,性能稳定),但是写systemctl 脚本时失败了(已解决),于是我懒得再配,删掉直接yum了,yum后自带systemctl脚本,可以轻松的开启关闭1.1 源码编译安装nginx为了编译Nginx源代码,需要标准的GCC编译器。GCC的全称为GNU Compiler Collection, 其由GNU开发,并以...原创 2019-08-28 15:05:21 · 3264 阅读 · 0 评论 -
MR基础案例(四)二次排序
二次排序20 2150 5150 5350 5250 5460 5160 5360 5260 5660 5770 5860 6170 5470 5570 5670 5770 58结果:20 2150 5150 5250 5350 5460 5160 5260 53...原创 2019-09-06 20:31:51 · 256 阅读 · 0 评论 -
MR基础案例(五)分组最大值
在上一次二次排序的基础上,求每组的最大值20 21//取50 5150 5250 5350 54//取60 5160 5260 5360 5660 5760 61//取70 5470 5570 5670 577...原创 2019-09-06 20:41:23 · 260 阅读 · 0 评论 -
MR基础案例(六)TOP N
任务需求需要求出wordcount的前3名 的数据TopN.javapackage MR;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Lo...原创 2019-09-06 20:47:14 · 551 阅读 · 0 评论 -
MR MapSideJoin & ReduceSideJoin
Map Side Joinpackage MR;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.NullWritable;import org...原创 2019-09-06 20:52:16 · 228 阅读 · 0 评论 -
MySQL整合MR时,无法设置分片大小
在本地运行模式下,分片大小的设置是被忽略的,永远只有一个分片,这是一个特性原创 2019-09-06 21:14:42 · 160 阅读 · 0 评论 -
MR整合MongoDB
注意重写连接方式原创 2019-09-06 21:08:54 · 259 阅读 · 0 评论 -
MapReduce的小作业方式以及聚合日志
uber模式:允许小作业按序列在单个jvm中运行。<!--默认设置-->mapreduce.job.ubertask.enable=false;mapreduce.job.ubertask.maxmaps=9;mapreduce.job.ubertask.maxreduces=1;mapreduce.job.ubertask.maxbytes="";在mapred-si...原创 2019-09-06 21:12:55 · 193 阅读 · 0 评论 -
Centos7下,hadoop2.8.5配合hive2.3.6 顺利兼容
推荐链接https://blog.csdn.net/qq_38924171/article/details/100186327如果出现,执行SQL语句失败,请在hive-site.xml中更改<property> <name>datanucleus.schema.autoCreateAll</name> <value>true&l...原创 2019-09-08 16:10:45 · 918 阅读 · 0 评论 -
初识Hive
一、Hive简介Facebook为了解决海量日志数据的分析而开发了Hive,后来开源给了Apache软件基金会。Hive是一种用类SQL语句来协助读写、管理那些存储在分布式存储系统上大数据集的数据仓库软件。Hive的几个特点:1. Hive最大的特点是通过类SQL来分析大数据,而避免了写MapReduce程序来分析数据,这样使得分析数据更容易。2. 数据是存储在HDFS...原创 2019-09-09 20:19:11 · 192 阅读 · 0 评论 -
Hive DDL语法
DDL语法1. 数据库操作创建一个数据库会在HDFS上创建一个目录,Hive里数据库的概念类似于程序中的命名空间,用数据库来组织表,在大量Hive的情况下,用数据库来分开可以避免表名冲突。Hive默认的数据库是default。hive不能使用关键字、数字开始的字符串来作库表名,不区分大小写。1.1 创建数据库例子:hive> create database [if not ex...原创 2019-09-09 20:19:53 · 482 阅读 · 0 评论 -
Hive DML语法
DML语法1. 向Hive中加载数据几种常用的方法---------------------------------------------------------1.1 加载到普通表可以将本地文本文件内容批量加载到Hive表中,要求文本文件中的格式和Hive表的定义一致,包括:字段个数、字段顺序、列分隔符都要一致。这里的user_info表的表定义是以\t作为列分隔符,所以准备好数据...原创 2019-09-09 20:20:20 · 192 阅读 · 0 评论 -
Hive HQL & JOIN & explode
HQL语法原创 2019-09-09 20:20:50 · 893 阅读 · 0 评论 -
Hive 严格模式
Hive严格模式严格模式阻挡5类查询:1、笛卡尔积set hive.mapred.mode=strict;select*from dy_part1 d1join dy_part2 d2;2、分区表没有分区字段过滤set hive.mapred.mode=strict;select*from dy_part1 d1where d1.dt='2019-09-09';...原创 2019-09-09 20:21:39 · 333 阅读 · 0 评论 -
MR基础案例(三)去重
利用shuffle,整合相同的key数据:北京-天津 2019-09-03北京-天津 2019-09-03北京-烟台 2019-09-04北京-哈尔滨 2019-09-03北京-成都 2019-09-03北京-成都 2019-09-03北京-三亚 2019-09-04结果集:北京-天津 2019-09-03北京-烟台 2019-09-04北京-哈尔滨 2019-09-03...原创 2019-09-06 20:20:14 · 667 阅读 · 0 评论 -
MR基础案例(二)倒排索引
文本文档三个文件:index.html,hadoop.html,spark.html每个文件里有一些单词index.html : hadoop hadoop hadoop hadoop index bigdatahadoop.html : hadoop hadoop is nice nice best spark.html : spark is best best best 结果集...原创 2019-09-06 20:17:04 · 461 阅读 · 0 评论 -
Linux基础命令
Linux基本操作1.1 概念linux一切都是基于文件(文件几乎没有后缀限制),.rpm/ .repolinux同时也是一个树形的文件系统linux中有且仅有一个root用户常见目录:/ :根目录/etc: 配置文件/home:普通用户的家目录/opt:操作空间目录/bin:或/sbin用户或管理员的可操作命令/var:动态变化的数据文件/usr:资源目录,源码、学...原创 2019-08-28 15:07:29 · 209 阅读 · 0 评论 -
CentOS7安装mysql8.0.12
根据搜集的资料安装测试并在安装测试过程中整理的文档,部分参考文档在相应位置有标记。如有不足希望不吝赐教。目录一、配置yum源1.下载mysql源安装包2.安装mysql源3.检查是否安装成功4.修改安装版本(非必须)二、安装mysql三、启动mysql服务1.启动2.查看启动状态3.设置...转载 2019-08-28 15:20:09 · 451 阅读 · 0 评论