大米饭精灵-CSDN博客

原创 Hive thriftserver2 查询数据失败，记录异常排查

记录一次数据中台建设过程中，元数据拼接sql，通过Hivethriftserver2查询表数据，一直报错的问题。问题原因：在thriftserver2服务中，以 "_" 下划线开头的字段要用单引号" ' " 包起来做查询解决方案：select '_dataaging' from ods_erp_vbkd;成功解决，建议拼接sql都用单引号，把字段和表包起来。Error: Error while compiling statement: FAILED: ParseException li.

2020-06-28 11:23:29 491

原创《算法--Day1》每天一小步

《算法——Day1》每天一小步 1、算法：算法定义一系列的计算过程，此过程将某个值或集合作为输入，并产生某个值或集合作为输出结果。五要素：有穷性、确定性、输入项、输出项、可行性算法的评定：时间复杂度、空间复杂度、正确性、可读性、健壮性如果计算机无限快，算法这门学科将变得没有意义，用于求解某个问题的任何正确的方法皆可。有了...

2019-02-19 23:28:56 236

原创 Java每日算法1--设计一个有getMin功能的栈

目标：实现一个特殊的栈，在实现栈的基本功能的基础上，实现返回栈中最小的元素的操作要求：1、pop、push、getMin操作的时间复杂度都是 O(1) 2、设计的栈类型可以使用现成的栈结构实现：在设计上使用两个栈，一个栈用来保存当前栈中的元素，和正常栈一样，这个栈纪委stackData；另一个栈用于保存每一步操作的最小值，这个栈记为stackMin ...

2018-12-30 16:15:03 323

原创 JWT

待总结

2018-12-13 00:08:38 197

转载 Spark SQL 外部数据源（External DataSource）

1 概述 1.Spark1.2中，Spark SQL开始正式支持外部数据源。Spark SQL开放了一系列接入外部数据源的接口，来让开发者可以实现。使得Spark SQL可以加载任何地方的数据，例如mysql，hive，hdfs，hbase等，而且支持很多种格式如json, parquet, avro, csv格式。我们可以开发出任意的外部数据源来连接到Spark SQL，然后我们就可以通过外...

2018-12-13 00:07:02 439

原创 Neo4j 图数据库

一、各种数据库关系数据库管理系统（霸主）：擅长处理时间流水数据 Nosql（新型、不限于关系型：1.键-值存 2.BigTable 3.文档库 4.图形数据库）：擅长处理互联网社交网络，智能推荐等二、图数据库1、为什么选择图数据库？火？2、什么是图数据库？图数据库用图来存储数据，是最接近高性能的一种用于存储数据的数据结构方式之一。3、啥意思？4、当你遇到一堆...

2018-12-12 23:58:46 362

转载 Spark转换（transform）与动作（action）一览

【说的很特么抽象，能看得懂算你厉害啊，所以代码详解：一个Spark Demo与代码详解以下func，大部分时候为了让逻辑更清楚，推荐使用匿名函数！（lambda）】【ps：java和python的api是一样的，名字和参数没有变化】转换含义map(func)每一个输入元素经过func函数转换后输出一个元素filter(func)返回经过 func 函数计算后返回值为 true 的输入元素组成的一个...

2018-07-08 15:52:58 824

原创 Spark的两种分布式部署模式： Mesos,Yarn

（转载地址：http://dongxicheng.org/framework-on-yarn/apache-spark-comparing-three-deploying-ways/）目前Apache Spark支持三种分布式部署方式，分别是standalone、spark on mesos和 spark on YARN，其中，第一种类似于MapReduce 1.0所采用的模式，内部实现了容错性和...

2018-07-05 22:24:29 3089

转载如何优雅地关闭SparkStreaming

https://www.jianshu.com/p/b11943c94b8a参考2（已经过时）给出来一个方法，在scala中sys.ShutdownHookThread可以捕获SIGTERM方法，所以当收到kill -SIGTERM时，能够优雅的退出；def main(args: Array[String]) { // Prepare your environment val ss...

2018-06-28 22:30:43 846

转载 Java的23种设计模式

在网上看了一些设计模式的文章后，感觉还是印象不太深刻，决定好好记录记录。原文地址：http://blog.csdn.net/doymm2008/article/details/13288067 注：本文代码基本都有很多没有初始化等等问题，主要是为了减少代码量，达到一眼就能了解大概情况的目的。 java的设计模式大体上分为三大类：创建型模式（5种）：工厂方法模式，抽象工厂模式，单例模式，建造者模...

2018-06-23 10:41:29 135

转载头像文件上传服务器的功能实现

https://blog.csdn.net/shirukai/article/details/80770007NoteBook案例：头像文件上传服务器的功能实现在此项目中，用户注册时，需要上传头像，这里简单的利用了几个插件，实现了头像上传服务器的功能。前端利用了一个upload的插件，后端引用了Spring 的上传文件的jar包，下面整理贴出了项目中的相关代码：JSP页面需要引入js以及css文件...

2018-06-23 09:34:17 937

原创 Kafka 参数调优

Kafka 生产调优参数:Producer: acks: all buffer.memory: 536870912 compression.type :snappy retries: 100 max.in.flight.requests.per.connection = 1 batch.size: 10000 字节不是条数 max.request.size = 20...

2018-06-22 15:12:37 2015

转载本机idea远程调试flume

https://blog.csdn.net/u012373815/article/details/60601118最近又要自定义开发flume source 插件，每次插件打包后运行，不能再编译器里debug 感觉好苦恼。于是今天就看了一下flume 的远程调试。一看感觉挺简单的。所以就分享一下。远程调试flume其实就四步，第一步开启flume的远程调试，第二步拉取flume 源码导入到idea...

2018-06-22 10:19:17 653

转载 Spark性能优化指南——高级篇

本文转自：http://tech.meituan.com/spark-tuning-pro.html http://lxw1234.com/archives/2016/05/663.htm感谢原作者前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决...

2018-06-20 16:19:22 155

转载 Spark会把数据都载入到内存么？

前言很多初学者其实对Spark的编程模式还是RDD这个概念理解不到位，就会产生一些误解。比如，很多时候我们常常以为一个文件是会被完整读入到内存，然后做各种变换，这很可能是受两个概念的误导：RDD的定义，RDD是一个分布式的不可变数据集合Spark 是一个内存处理引擎如果你没有主动对RDDCache/Persist,它不过是一个概念上存在的虚拟数据集，你实际上是看不到这个RDD的数据的全集的(他不会...

2018-06-20 16:17:38 1243

转载 Spark 各种参数解释总结

1 spark on yarn常用属性介绍属性名默认值属性说明spark.yarn.am.memory512m在客户端模式（client mode）下，yarn应用master使用的内存数。在集群模式（cluster mode）下，使用spark.driver.memory代替。spark.driver.cores1在集群模式（cluster mode）下，driver程序使用的核数。在集群模式（...

2018-06-14 12:05:21 3653

原创 SparkStreaming 日志双写直连flume

生产环境中，开发会写入一些测试数据，或者黑名单过滤，或者只抓取黑名单transform 日志双写 ==> log a：正常的 a：test的黑名单过滤 log black=======================================================================================================...

2018-06-14 11:53:34 285

原创 SparkStreaming - 写入到mysql ForeachRdd

import java.sql.DriverManagerimport org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}object ForeachRDDApp { def main(args: Array[String]) { val sparkC...

2018-06-14 11:08:32 448

转载 Spark Streaming的还原药水——Checkpoint

一个 Streaming Application 往往需要7*24不间断的跑，所以需要有抵御意外的能力（比如机器或者系统挂掉，JVM crash等）。为了让这成为可能，Spark Streaming需要 checkpoint 足够多信息至一个具有容错设计的存储系统才能让 Application 从失败中恢复。Spark Streaming 会 checkpoint 两种类型的数据。Metadata...

2018-06-13 23:28:26 159

转载关于SparkStreaming的checkpoint的弊端

框架版本spark2.1.0kafka0.9.0.0当使用sparkstreaming处理流式数据的时候，它的数据源搭档大部分都是Kafka，尤其是在互联网公司颇为常见。当他们集成的时候我们需要重点考虑就是如果程序发生故障，或者升级重启，或者集群宕机，它究竟能否做到数据不丢不重呢？也就是通常我们所说的高可靠和稳定性，通常框架里面都带有不同层次的消息保证机制，一般来说有三种就是：at most o...

2018-06-13 23:27:03 237

转载 Spark-streaming kafka数据接收两种方式对比

1.1 Receiver-based Approach这种方式利用接收器（Receiver）来接收kafka中的数据，其最基本是使用Kafka高阶用户API接口。对于所有的接收器，从kafka接收来的数据会存储在spark的executor中，之后spark streaming提交的job会处理这些数据。Receiver-based的Kafka读取方式是基于Kafka高阶(high-level) ...

2018-06-13 13:36:31 1380

原创 Kafka -01概述对比，环境部署搭建

server.properties############################# Server Basics ############################## The id of the broker. This must be set to a unique integer for each broker.broker.id=0######################...

2018-06-12 23:42:27 191

转载 Spark Streaming中WAL内幕实现彻底解密

Spark Streaming中WAL内幕实现彻底解密1 WAL 框架和实现2 spark streaming中WAL的使用WAL 是一个存储系统，相当于Blockmanager，可以简单的认为，WAL就是一个文件系统。WAL 在存储系统上面加了一层，加了一个时间维度和索引的位置。 ...

2018-06-11 16:59:57 632

转载 sparkstreaming + kafka如何保证数据不丢失、不重复

spark-streaming作为一个24*7不间断运行的程序来设计，但是程序都会crash，如果crash了，如何保证数据不丢失，不重复。Input DStreams and Receiversspark streaming提供了两种streaming input source：basic source: Source directly avaliable in the StreamingCon...

2018-06-11 16:56:06 2790

转载 Spark 结构化流

https://databricks.com/blog/2016/07/28/continuous-applications-evolving-streaming-in-apache-spark-2-0.htmlMost streaming engines focus on performing computations on a stream: for example, one can map ...

2018-06-11 16:55:03 689

原创 SparkSQL 开发中遇到的参数坑-1

SQLConf 默认情况下ORC文件格式的文件，过滤条件默认不适用谓词下压导致性能极差。但是他默认是压缩的，10000条verifyPartitionPath也是false的

2018-06-10 08:29:14 418

原创 SparkSQL Catalog

http://spark.apache.org/docs/latest/sql-programming-guide.html#Catalog interface for Spark. To access this, use `SparkSession.catalog`.Spark的目录界面。要访问这个，使用`SparkSession.catalog`。val catalog = spark.c...

2018-06-10 08:16:36 793

转载 HBase之Rowkey设计总结及方舟实战篇

一、引言HBase由于其存储和读写的高性能，在OLAP即时分析中越来越发挥重要的作用，在易观精细化运营产品--易观方舟也有广泛的应用。作为Nosql数据库的一员，HBase查询只能通过其Rowkey来查询(Rowkey用来表示唯一一行记录)，Rowkey设计的优劣直接影响读写性能。HBase中的数据是按照Rowkey的ASCII字典顺序进行全局排序的,有伙伴可能对ASCII字典序印象不够深刻，下面...

2018-06-10 07:45:23 1600

原创 Spark DataFrame vs Dataset

DataFrame vs DatasetDataFrame = Dataset[Row]SchemaRDD ---------->DataFrame ---------->Dataset rename due to compile-time type safety OO structure cha...

2018-06-09 23:57:56 329

原创 SparkSQL 之开发环境造数据

import java.io.BufferedWriter;import java.io.FileOutputStream;import java.io.IOException;import java.io.OutputStreamWriter;import java.text.SimpleDateFormat;import java.util.Date;import java.uti...

2018-06-08 15:35:53 509

原创 SparkSQL UDF&&函数

1.SparkSQL自带的Functions在idea中，双击shift，搜索functions，里面有很多自定义函数package RDD_DATAFRAME_DATASETimport org.apache.spark.sql.SparkSession/** * SparkSQL函数如何使用 "2018-01-01,50,1111", "2018-01-01,60,...

2018-06-08 00:42:00 3940

原创 SparkSQL-03

SparkSQL的三个愿景： 1.Less Code a)可以自己推导schema（比如：直接读取json、Parquet，结构在数据文件中有） b) ...

2018-06-07 23:54:29 165

原创 SparkSQL 外部数据源

http://spark.apache.org/docs/latest/sql-programming-guide.html#data-sources

2018-06-04 21:18:43 150

转载美团点评 spark性能优化指南-基础篇

前言：最近开始玩spark，公司分享了一些不错的spark性能优化学习，故在此分享：http://tech.meituan.com/spark-tuning-basic.html前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛...

2018-06-04 09:58:33 403

原创 Zookeeper 以其中一台服务器连入指令

如果不加 -server 参数会以localhost模式登录./zkCli.sh -server hadoop:2181

2018-06-03 19:02:11 252

原创 Linux 批量去杀进程

kill -9 $(pgrep -f zookeeper)杀掉所有zookeeper进程哈哈哈超好用

2018-06-03 18:35:13 280

转载为什么分布式一定要有消息队列？

作者：孤独烟来自：cnblogs.com/rjzheng/p/8994962.html0 为什么写这篇文章?博主有两位朋友分别是小A和小B:小A，工作于传统软件行业(某社保局的软件外包公司)，每天工作内容就是和产品聊聊需求，改改业务逻辑。再不然就是和运营聊聊天，写几个SQL，生成下报表。又或者接到客服的通知，某某功能故障了，改改数据，然后下班部署上线。每天过的都是这种生活，技术零成长。小B，工作于...

2018-06-03 18:33:26 273

原创 Maven私服搭建和使用

为什么要用远程仓库（私服）如果没有私服，我们所需的所有构件都需要通过maven的中央仓库和第三方的maven仓库下载到本地，而一个团队中的所有人都重复的从maven仓库下载构件，这样就加大了中央仓库的负载和浪费了外网的带宽，如果网速慢的话还会影响项目的进程。为团队创建私服，可以让公司的团队共享一套构件，加快了项目搭建的进程。所以我们选择用Nexus创建私服。 Nexus下载下载地址：http://...

2018-05-29 18:57:53 251

原创 Hive Hql基本语法

Hive官网（HQL）语法手册（英文版）： https://cwiki.apache.org/confluence/display/Hive/LanguageManual一、Hive的数据存储　　1、Hive中所有的数据都存储在 HDFS 中，没有专门的数据存储格式（可支持Text，SequenceFile，ParquetFile，RCFILE等）　　2、只需要在创建表的时候告诉 Hive 数据...

2018-05-29 18:49:28 580

原创 SparkSQL-02 RDD转换DF的两种方式

引用原文：Interoperating with RDDsSpark SQL supports two different methods for converting existing RDDs into Datasets.The first method uses reflection to infer the schema of an RDD that contains specific t...

2018-05-29 00:28:15 5442

powerBI单点登录

空空如也