BackToMeNow-CSDN博客

转载 Zookeeper 23道经典面试题

1.ZooKeeper是什么？ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，它是集群的管理者，监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操作。最终，将简单易用的接口和性能高效、功能稳定的系统提供给用户。客户端的读请求可以被集群中的任意一台机器处理，如果读请求在节点上注册了监听器，这个监听器也是由所连接的zooke...

2019-09-03 13:24:53 1011

转载重写Comparator 接口实现对hashmap按value排序

map是键值对的集合接口，它的实现类主要包括：HashMap,TreeMap,Hashtable以及LinkedHashMap等。其中这四者的区别如下（简单介绍）：HashMap：我们最常用的Map，它根据key的HashCode 值来存储数据,根据key可以直接获取它的Value，同时它具有很快的访问速度。HashMap最多只允许一条记录的key值为Null(多条会覆盖);允许多条记录的Val...

2019-08-03 21:28:45 2107

原创 IDEA 找不到或无法加载主类

现象环境：编译器IDEAjava项目描述：从同事那里复制过来的项目，或者经过修改的项目，或者本地项目更改了启动类的名称时，都有可能会出现此异常“找不到或无法加载主类xxxx”。方案1打开idea的 project structure1、看一下moudle的名称是否与现在的项目名称一致。2、看一下moudle中的paths设置中，jar包的输出位置，以及编译输出位置是否和现在修改后预设的相同。3、修改为相同后，maven clean，重新运行项目，看看是不是有了。方案21、打开运行设

2022-01-13 10:31:31 52130 10

原创关于spark RESTFUL API 的使用注意事项

Spark 监控信息 API 地址https://spark.apache.org/docs/latest/monitoring.html#rest-api要注意的是，当任务是运行在yarn集群上时，网址不再是localhost：4040，而是active-rm-address:port后面的地址信息页不再是/api/v1，而是要加上代理路径/proxy/application_id/api/v1/…给一个在yarn上获取StreamingBatch信息的使用示例：http://<ac

2022-01-07 11:10:08 1024

原创智慧的秘密知识复习

章节测试

2020-11-18 19:26:29 17304 12

原创世界文化美学知识复习

第0章绪论第一章人类文化系统的审美特征第二章西方文化体系的审美特征-聚焦造型艺术

2020-11-18 19:25:55 16447 3

原创近期在写SQL时得到的一些经验

这阵子写SQL得到的一些经验，有些可能比较实用，有些可能比较笨重，但是总的来说都是减少了资源使用率，加快处理进程1、在登录日志中拿到近n日日活想法：当时的想法很简单啦，就是日期锁定在近n天然后采用row_number或者直接distinct进行去重计算uid即可问题：但是当做的时候发现还是有点小问题，因为给出的模板是要有四列，日期、日活、七日活、三十日活，这四列数据都要围绕其中的日期这一条件进行对应，那怎么把n日活归并到当前日期来呢，也就是说把上周的周活数据放到昨天（T+1）的行中。。实现：其实这里

2020-11-17 18:56:15 459 1

原创 spark通过降低cores数量来提高成功率，错误记录之memory limit

错误信息在执行一条sparkSQL时，出现以下报错，看起来像是函数或者倾斜问题RROR executor.Executor: Exception in task 14.1 in stage 1638.0 (TID 21893)java.lang.RuntimeException: org.apache.hadoop.hive.ql.metadata.HiveException: Error while processing row (tag=0) {"key":{"reducesinkkey0":70

2020-10-16 15:27:26 466

原创 HIve修改字段或者增加字段后，Spark访问不生效问题

问题重现（例）当我将数据存储格式改变，或者增加一列的时候，我习惯使用了alter table add …来实现原来的表：ALTER TABLE test ADD COLUMNS (weight STRING) CASCADE加上一列weight字段后（这里使用cascade就是为了同步到hivemetastore），我用spark向表插入一个带有weight字段的表，此时抛出异常Exception in thread "main" org.apache.spark.sql.AnalysisEx

2020-05-28 14:59:42 3033 7

原创 spark.rdd.MapPartitionsRDD cannot be cast to streaming.kafka010.HasOffsetRange

1.问题重现当我想通过redis去维护offset的时候，习惯性的写上了以下程序 inputDS.map(log => log.value()).foreachRDD { rdd => //redis管理offset val ranges: Array[OffsetRange] = rdd.asInstanceOf[HasOffsetRanges].o...

2019-12-26 18:57:08 1118 3

原创配置HiveOnTez时，出现了找未知端口的情况，解决

1.问题重现https://bbs.csdn.net/topics/394525960，这是我提问的帖子，但是并没人理我。。。。。。。。2.解决历程1.深入源码，看到hive源码有读取这样的一个配置（不想再去找了）hive.downloaded.resources.dir，去寻找一些资源文件2.在配置文件中找到了这个配置，因为我在搭建hive的时候，图省事，就把所有的${system:...

2019-11-22 16:51:23 778

原创 ELK 一键启动脚本，总想着怎么偷懒

假的都是假的--------------------------------东拼西凑的脚本还挺好使#!/bin/shPATH=$PATH. /etc/init.d/functionsstart() { if [ `ps aux|grep elasticsearch | grep -v grep|wc -l` -eq 0 ];then if [ `whoami` =...

2019-11-21 14:23:13 468

原创使用ElasticSearch在bulk导入json数据时，The bulk request must be terminated by a newline [\n]

问题重现输入命令curl -XPOST -H 'Content-Type:application/json' 'xxxx:9200/bank/account/_bulk?pretty' -d "./acc.json"报了如下的错误：{ "error" : { "root_cause" : [ { "type" : "illegal_argument...

2019-11-21 13:36:06 8460 1

原创 ElasticSearch介绍及基本API

1. ES基本介绍https://blog.csdn.net/achuo/article/details/87865141Elasticsearch学习，请先看这一篇！内容比较完备，推荐阅读2. API操作练习 <dependency> <groupId>junit</groupId> <artifac...

2019-11-21 11:24:29 234

原创 redis 基础API 操作五种数据类型

import org.junit.After;import org.junit.Before;import org.junit.Test;import redis.clients.jedis.Jedis;import java.util.LinkedHashMap;import java.util.List;import java.util.Map;import java.util....

2019-11-21 11:07:18 302

原创 kafka 总结以及 JavaAPI 操作kafka生产者和消费者

首先准备两个配置文件到resourcesproducer.properties# Licensed to the Apache Software Foundation (ASF) under one or more# contributor license agreements. See the NOTICE file distributed with# this work for ad...

2019-11-21 10:48:33 422

原创 SparkStreaming简单总结一下和几个小案例，整合kafka

1. SparkStreaming是什么SparkStreaming对于Spark核心API的拓展，从而支持对于实时数据流的可拓展，高吞吐量和容错性流处理。数据可以由多个源取得，例如：Kafka，Flume，Twitter，ZeroMQ，Kinesis或者TCP接口，同时可以使用由如map，reduce，join和window这样的高层接口描述的复杂算法进行处理。最终，处理过的数据可以被推送到...

2019-11-21 10:29:19 818

原创 SparkSQL 简单总结一下和一个WC案例

SparkSQL总结：一、Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame,并且作为分布式SQL查询引擎的作用二、什么是DataFrames??与RDD类似,DataFrames也是一个分布式数据容器;然而DataFrame更像传统数据库的二维表格,除了数据以外,还记录数据的结构信息,即schema;同时与Hive类似,DataFra...

2019-11-21 09:51:16 287

原创 redis 笔记简介数据类型

Redis概述（参考：https://www.runoob.com/redis/redis-conf.html）Redis介绍Redis的安装（单机版，集群版，分布式集群版）redis实操：数据类型（常用的五大数据类型，string,list,set,hash,zset）命令行 java apiRedis介绍说明：①redis是基于内存的nosql的数据库。（nosql:...

2019-11-19 16:38:09 262

原创 redis集群优化，JedisCluster实现Pipeline功能，进而实现批处理

前提redis在集群模式下无法使用Pipeline进行批处理，在一定生产环境下降低了开发效率，于是手写了一个pipeline处理工具，以实现一个基础的批处理我们知道，普通的情况下，redis client与server之间采用的是请求应答的模式，即：Client: command1Server: response1Client: command2Server: response2...

2019-11-19 16:25:14 1508

原创 SparkCore 简单总结一下

三大数据结构：—RDD：弹性分布式数据集------定义：---------数据集：存数的数据的计算逻辑---------分布式：数据的来源&计算&数据的存储，都可以是分布式的---------弹性：------------1.血缘（依赖关系）:spark可以通过特殊的处理方案减少依赖关系（checkpoint）------------2.计算：Spark的计算是基于...

2019-11-16 09:01:35 302 3

原创 Spark第二天的RDD概念

3.25.15 RDD概念（重要）RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中，后续的查询能够重用工作集，这极大地提升了查询速度。在之前学习MR...

2019-11-04 21:35:12 203

原创 Spark第一天的小概念

1、什么是RDDRDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合.Dataset:一个数据集，简单的理解为集合，用于存放数据的Distributed：它的数据分布式存储，并且可以做分布式的计算Resilient：弹性的它表示的是数据可以保存在磁盘，也可以保存在内...

2019-11-04 21:02:28 251

转载 Spark32种常用的算子（第三天练习）

官方文档上列举共有32种常见算子，包括Transformation的20种操作和Action的12种操作。（注：以下截图为windows下运行结果）Transformation：1.mapmap的输入变换函数应用于RDD中所有元素，而mapPartitions应用于所有分区。区别于mapPartitions主要在于调用粒度不同。如parallelize（1 to 10， 3），map函数执...

2019-11-04 14:32:44 444

原创浅探scala闭包

维基百科----闭包In programming languages, a closure (also lexical closure or function closure) is a technique for implementing lexically scoped name binding in a language with first-class functions.从概念角度...

2019-10-30 21:11:58 217

原创将APPDATA 迁出C盘

整个AppData目录挪到D盘方法：一、打开注册表，然后定位到HKEY_CURRENT_USER\Software\Microsoft\Windows\CurrentVersion\Explorer\Shell Folders以及HKEY_CURRENT_USER\Software\Microsoft\Windows\CurrentVersion\Explorer\User Shell Fol...

2019-10-24 19:04:38 28808 11

原创 HDFS JAVA客户端的权限错误：Permission denied

错误：org.apache.hadoop.security.AccessControlException: org.apache.hadoop.security .AccessControlException: Permission denied: user=Administrator, access=WRITE, inode=“hadoop”: hadoop:supergroup:rwxr-x...

2019-10-23 16:12:15 495

原创在Windows 平台下执行MR任务报错/bin/bash: 第 0 行:fg: 无任务控制

Failing this attempt.Diagnostics: Exception from container-launch.Container id: container_1571811640353_0010_02_000001Exit code: 1Exception message: /bin/bash: 第 0 行:fg: 无任务控制Stack trace: ExitCod...

2019-10-23 16:01:56 2224

转载简单了解一下布隆过滤器

前言今天碰到个业务，他的 Redis 集群有个大 Value 用途是作为布隆过滤器，但沟通的时候被小怼了一下，意思大概是 “布隆过滤器原理都不懂，还要我优化？” 。技术菜被人怼认了、怪不得别人，自己之前确实只是听说过这个，但是没深入了解过，趁这个机会补充一下知识。在进入正文之前，之前看到的有句话我觉得说得很好：Data structures are nothing different. T...

2019-10-16 20:47:40 195

原创数仓OLAP|OLTP概念的整理

概述,对比数据处理大致可以分成两大类：联机事务处理OLTP（on-line transaction processing）、联机分析处理OLAP（On-Line Analytical Processing）。OLTP是传统的关系型数据库的主要应用，主要是基本的、日常的事务处理，例如银行交易。OLAP是数据仓库系统的主要应用，支持复杂的分析操作，侧重决策支持，并且提供直观易懂的查询结果。OLTP...

2019-10-16 20:15:30 500

原创伪分布hadoop2.8.5+hbase2.2.1的安装使用(后因版本问题切换到1.4.10，安装过程相同)

安装环境jdk1.8zookeeper3.4.14hbase 2.2.1hadoop 2.8.5首推清华镜像下载站下载所需包清华镜像单机版zookeeper部署解压下载好的zookeeper包，到自己的目录cd zookeeper/进入zookeeper目录创建文件夹data 用来存储同步信息mkdir data进入到conf目录cp zoo_sample.cfg...

2019-10-03 17:09:43 999

原创 Hue 的编译安装及简单使用

HUE简介Hue是一个开源的Apache Hadoop UI系统，由Cloudera Desktop演化而来，最后Cloudera公司将其贡献给Apache基金会的Hadoop社区，用Python Web框架Django实现的。通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据，例如操作HDFS上的数据，运行MapReduce Job，执行Hive的SQL语...

2019-09-27 13:53:01 3662

原创 azkaban3.7编译安装

azkaban3.7编译安装

2019-09-24 22:17:21 632

转载 Flume的入门及小案例

Flume概念:Flume是一种分布式、可靠且可用的服务，用于高效地收集、聚合和移动大量日志数据。它具有基于流数据流的简单灵活的体系结构。它具有健壮性和容错性，具有可调的可靠性机制和许多故障转移和恢复机制。它使用一个简单的可扩展数据模型，允许在线分析应用程序。组件：source：数据源组件,用于读取相应数据,并将数据传到channel中channel:管道，用于连接so...

2019-09-24 13:47:38 246

原创 datax小模板

从mysql到hdfs{ "job": { "content": [ { "reader": { "name": "mysqlreader", "parameter": { "column"...

2019-09-21 16:09:55 605

原创 sqoop小练习

/** 将mysql的表导入 hdfs **/bin/sqoop import \--connect jdbc:mysql://hdp-04:3306/userdb \--username root \--password root \--target-dir \/sqooptest \--fields-terminated-by ',' \--table emp \--spl...

2019-09-21 15:47:15 219

原创 sqoop1.4.7+hive2.3.6+hadoop2.8.5+mysql8.0兼容遇到的一些问题

sqoop 跑任务时，出现 Sqoop:Import failed:java.lang.ClassNotFoundException:org.apache.hadoop.hive.conf.HiveConf在profile中加入export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$HIVE_HOME/lib/*在sqoop-env.sh加入HIVE_CON...

2019-09-21 15:36:50 1693

原创 Hive 2.0函数

https://www.cnblogs.com/MOBIN/p/5618747.html#1函数功能介绍

2019-09-14 21:13:18 146

原创 Hive 结构体

结构体-- 创建结构体表create table if not exists str1(name string,score struct<chinese:int,math:int,english:int>)row format delimited fields terminated by ' 'collection items terminated by ',';数...

2019-09-14 21:08:30 1103

原创 hive常用配置

hive.exec.mode.local.auto决定 Hive 是否应该自动地根据输入文件大小，在本地运行（在GateWay运行）truehive.exec.mode.local.auto.inputbytes.max如果 hive.exec.mode.local.auto 为 true，当输入文件大小小于此阈值时可以自动在本地模式运行，默认是 128兆。134217728Lhive...

2019-09-10 19:16:23 225

空空如也

空空如也