自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(80)
  • 资源 (1)
  • 收藏
  • 关注

原创 Hive thriftserver2 查询数据失败,记录异常排查

记录一次数据中台建设过程中,元数据拼接sql,通过Hivethriftserver2查询表数据,一直报错的问题。问题原因:在thriftserver2服务中,以 "_" 下划线开头的字段要用单引号" ' " 包起来做查询解决方案:select '_dataaging' from ods_erp_vbkd;成功解决,建议拼接sql都用单引号,把字段和表包起来。Error: Error while compiling statement: FAILED: ParseException li.

2020-06-28 11:23:29 475

原创 《算法--Day1》每天一小步

《算法——Day1》每天一小步 1、算法:算法定义一系列的计算过程,此过程将某个值或集合作为输入,并产生某个值或集合作为输出结果。            五要素:有穷性、确定性、输入项、输出项、可行性            算法的评定:时间复杂度、空间复杂度、正确性、可读性、健壮性 如果计算机无限快,算法这门学科将变得没有意义,用于求解某个问题的任何正确的方法皆可。有了...

2019-02-19 23:28:56 228

原创 Java每日算法1--设计一个有getMin功能的栈

目标:实现一个特殊的栈,在实现栈的基本功能的基础上,实现返回栈中最小的元素的操作要求:1、pop、push、getMin操作的时间复杂度都是 O(1)           2、设计的栈类型可以使用现成的栈结构实现:在设计上使用两个栈,一个栈用来保存当前栈中的元素,和正常栈一样,这个栈纪委stackData;另一个栈用于保存每一步操作的最小值,这个栈记为stackMin ...

2018-12-30 16:15:03 316

原创 JWT

待总结

2018-12-13 00:08:38 188

转载 Spark SQL 外部数据源(External DataSource)

1 概述 1.Spark1.2中,Spark SQL开始正式支持外部数据源。Spark SQL开放了一系列接入外部数据源的接口,来让开发者可以实现。使得Spark SQL可以加载任何地方的数据,例如mysql,hive,hdfs,hbase等,而且支持很多种格式如json, parquet, avro, csv格式。我们可以开发出任意的外部数据源来连接到Spark SQL,然后我们就可以通过外...

2018-12-13 00:07:02 425

原创 Neo4j 图数据库

一、各种数据库 关系数据库管理系统(霸主):擅长处理时间流水数据 Nosql(新型、不限于关系型:1.键-值存 2.BigTable 3.文档库 4.图形数据库):擅长处理互联网社交网络,智能推荐等 二、图数据库1、为什么选择图数据库? 火?2、什么是图数据库?图数据库用图来存储数据,是最接近高性能的一种用于存储数据的数据结构方式之一。3、啥意思?4、当你遇到一堆...

2018-12-12 23:58:46 355

转载 Spark转换(transform)与动作(action)一览

【说的很特么抽象,能看得懂算你厉害啊,所以代码详解:一个Spark Demo与代码详解以下func,大部分时候为了让逻辑更清楚,推荐使用匿名函数!(lambda)】【ps:java和python的api是一样的,名字和参数没有变化】转换含义map(func)每一个输入元素经过func函数转换后输出一个元素filter(func)返回经过 func 函数计算后返回值为 true 的输入元素组成的一个...

2018-07-08 15:52:58 817

原创 Spark的两种分布式部署模式: Mesos,Yarn

(转载地址:http://dongxicheng.org/framework-on-yarn/apache-spark-comparing-three-deploying-ways/)目前Apache Spark支持三种分布式部署方式,分别是standalone、spark on mesos和 spark on YARN,其中,第一种类似于MapReduce 1.0所采用的模式,内部实现了容错性和...

2018-07-05 22:24:29 3080

转载 如何优雅地关闭SparkStreaming

https://www.jianshu.com/p/b11943c94b8a参考2(已经过时)给出来一个方法,在scala中sys.ShutdownHookThread可以捕获SIGTERM方法,所以当收到kill -SIGTERM时,能够优雅的退出;def main(args: Array[String]) { // Prepare your environment val ss...

2018-06-28 22:30:43 833

转载 Java的23种设计模式

在网上看了一些设计模式的文章后,感觉还是印象不太深刻,决定好好记录记录。原文地址:http://blog.csdn.net/doymm2008/article/details/13288067   注:本文代码基本都有很多没有初始化等等问题,主要是为了减少代码量,达到一眼就能了解大概情况的目的。 java的设计模式大体上分为三大类:创建型模式(5种):工厂方法模式,抽象工厂模式,单例模式,建造者模...

2018-06-23 10:41:29 132

转载 头像文件上传服务器的功能实现

https://blog.csdn.net/shirukai/article/details/80770007NoteBook案例:头像文件上传服务器的功能实现在此项目中,用户注册时,需要上传头像,这里简单的利用了几个插件,实现了头像上传服务器的功能。前端利用了一个upload的插件,后端引用了Spring 的上传文件的jar包,下面整理贴出了项目中的相关代码:JSP页面需要引入js以及css文件...

2018-06-23 09:34:17 925

原创 Kafka 参数调优

Kafka 生产调优参数:Producer:  acks: all buffer.memory: 536870912 compression.type :snappy retries: 100        max.in.flight.requests.per.connection = 1 batch.size: 10000 字节 不是条数        max.request.size = 20...

2018-06-22 15:12:37 2002

转载 本机idea远程调试flume

https://blog.csdn.net/u012373815/article/details/60601118最近又要自定义开发flume source 插件,每次插件打包后运行,不能再编译器里debug 感觉好苦恼。于是今天就看了一下flume 的远程调试。一看感觉挺简单的。所以就分享一下。远程调试flume其实就四步,第一步开启flume的远程调试,第二步拉取flume 源码导入到idea...

2018-06-22 10:19:17 647

转载 Spark性能优化指南——高级篇

本文转自:http://tech.meituan.com/spark-tuning-pro.html                 http://lxw1234.com/archives/2016/05/663.htm感谢原作者前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决...

2018-06-20 16:19:22 148

转载 Spark会把数据都载入到内存么?

前言很多初学者其实对Spark的编程模式还是RDD这个概念理解不到位,就会产生一些误解。比如,很多时候我们常常以为一个文件是会被完整读入到内存,然后做各种变换,这很可能是受两个概念的误导:RDD的定义,RDD是一个分布式的不可变数据集合Spark 是一个内存处理引擎如果你没有主动对RDDCache/Persist,它不过是一个概念上存在的虚拟数据集,你实际上是看不到这个RDD的数据的全集的(他不会...

2018-06-20 16:17:38 1237

转载 Spark 各种参数解释总结

1 spark on yarn常用属性介绍属性名默认值属性说明spark.yarn.am.memory512m在客户端模式(client mode)下,yarn应用master使用的内存数。在集群模式(cluster mode)下,使用spark.driver.memory代替。spark.driver.cores1在集群模式(cluster mode)下,driver程序使用的核数。在集群模式(...

2018-06-14 12:05:21 3644

原创 SparkStreaming 日志双写 直连flume

生产环境中,开发会写入一些测试数据,或者黑名单过滤,或者只抓取黑名单transform 日志双写 ==> log a:正常的 a:test的 黑名单过滤 log     black=======================================================================================================...

2018-06-14 11:53:34 274

原创 SparkStreaming - 写入到mysql ForeachRdd

import java.sql.DriverManagerimport org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}object ForeachRDDApp {  def main(args: Array[String]) {    val sparkC...

2018-06-14 11:08:32 443

转载 Spark Streaming的还原药水——Checkpoint

一个 Streaming Application 往往需要7*24不间断的跑,所以需要有抵御意外的能力(比如机器或者系统挂掉,JVM crash等)。为了让这成为可能,Spark Streaming需要 checkpoint 足够多信息至一个具有容错设计的存储系统才能让 Application 从失败中恢复。Spark Streaming 会 checkpoint 两种类型的数据。Metadata...

2018-06-13 23:28:26 156

转载 关于SparkStreaming的checkpoint的弊端

框架版本spark2.1.0kafka0.9.0.0当使用sparkstreaming处理流式数据的时候,它的数据源搭档大部分都是Kafka,尤其是在互联网公司颇为常见。 当他们集成的时候我们需要重点考虑就是如果程序发生故障,或者升级重启,或者集群宕机,它究竟能否做到数据不丢不重呢?也就是通常我们所说的高可靠和稳定性,通常框架里面都带有不同层次的消息保证机制,一般来说有三种就是:at most o...

2018-06-13 23:27:03 233

转载 Spark-streaming kafka数据接收两种方式对比

1.1 Receiver-based Approach这种方式利用接收器(Receiver)来接收kafka中的数据,其最基本是使用Kafka高阶用户API接口。对于所有的接收器,从kafka接收来的数据会存储在spark的executor中,之后spark streaming提交的job会处理这些数据。Receiver-based的Kafka读取方式是基于Kafka高阶(high-level) ...

2018-06-13 13:36:31 1373

原创 Kafka -01概述对比,环境部署搭建

server.properties############################# Server Basics ############################## The id of the broker. This must be set to a unique integer for each broker.broker.id=0######################...

2018-06-12 23:42:27 186

转载 Spark Streaming中WAL内幕实现彻底解密

Spark Streaming中WAL内幕实现彻底解密1 WAL 框架和实现2 spark streaming中WAL的使用WAL 是一个存储系统,相当于Blockmanager,可以简单的认为,WAL就是一个文件系统。WAL 在存储系统上面加了一层,加了一个时间维度和索引的位置。              ...

2018-06-11 16:59:57 629

转载 sparkstreaming + kafka如何保证数据不丢失、不重复

spark-streaming作为一个24*7不间断运行的程序来设计,但是程序都会crash,如果crash了,如何保证数据不丢失,不重复。Input DStreams and Receiversspark streaming提供了两种streaming input source:basic source: Source directly avaliable in the StreamingCon...

2018-06-11 16:56:06 2788

转载 Spark 结构化流

https://databricks.com/blog/2016/07/28/continuous-applications-evolving-streaming-in-apache-spark-2-0.htmlMost streaming engines focus on performing computations on a stream: for example, one can map ...

2018-06-11 16:55:03 684

原创 SparkSQL 开发中遇到的参数坑-1

SQLConf 默认情况下ORC文件格式的文件,过滤条件默认不适用谓词下压导致性能极差。但是他默认是压缩的,10000条verifyPartitionPath也是false的

2018-06-10 08:29:14 407

原创 SparkSQL Catalog

http://spark.apache.org/docs/latest/sql-programming-guide.html#Catalog interface for Spark. To access this, use `SparkSession.catalog`.Spark的目录界面。 要访问这个,使用`SparkSession.catalog`。val catalog = spark.c...

2018-06-10 08:16:36 783

转载 HBase之Rowkey设计总结及方舟实战篇

一、引言HBase由于其存储和读写的高性能,在OLAP即时分析中越来越发挥重要的作用,在易观精细化运营产品--易观方舟也有广泛的应用。作为Nosql数据库的一员,HBase查询只能通过其Rowkey来查询(Rowkey用来表示唯一一行记录),Rowkey设计的优劣直接影响读写性能。HBase中的数据是按照Rowkey的ASCII字典顺序进行全局排序的,有伙伴可能对ASCII字典序印象不够深刻,下面...

2018-06-10 07:45:23 1551

原创 Spark DataFrame vs Dataset

DataFrame vs DatasetDataFrame = Dataset[Row]SchemaRDD ---------->DataFrame ---------->Dataset                rename due to                compile-time type safety                OO structure cha...

2018-06-09 23:57:56 325

原创 SparkSQL 之开发环境造数据

import java.io.BufferedWriter;import java.io.FileOutputStream;import java.io.IOException;import java.io.OutputStreamWriter;import java.text.SimpleDateFormat;import java.util.Date;import java.uti...

2018-06-08 15:35:53 499

原创 SparkSQL UDF&&函数

1.SparkSQL自带的Functions在idea中,双击shift,搜索functions,里面有很多自定义函数package RDD_DATAFRAME_DATASETimport org.apache.spark.sql.SparkSession/** * SparkSQL函数如何使用 "2018-01-01,50,1111", "2018-01-01,60,...

2018-06-08 00:42:00 3933

原创 SparkSQL-03

SparkSQL的三个愿景:                                   1.Less Code                                       a)可以自己推导schema(比如:直接读取json、Parquet,结构在数据文件中有)                                       b)               ...

2018-06-07 23:54:29 160

原创 SparkSQL 外部数据源

http://spark.apache.org/docs/latest/sql-programming-guide.html#data-sources

2018-06-04 21:18:43 145

转载 美团点评 spark性能优化指南-基础篇

前言:最近开始玩spark,公司分享了一些不错的spark性能优化学习,故在此分享:http://tech.meituan.com/spark-tuning-basic.html前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛...

2018-06-04 09:58:33 398

原创 Zookeeper 以其中一台服务器连入指令

如果不加 -server 参数 会以localhost模式登录./zkCli.sh -server hadoop:2181

2018-06-03 19:02:11 245

原创 Linux 批量去杀进程

kill -9 $(pgrep -f zookeeper)杀掉所有zookeeper进程哈哈哈 超好用

2018-06-03 18:35:13 274

转载 为什么分布式一定要有消息队列?

作者:孤独烟来自:cnblogs.com/rjzheng/p/8994962.html0 为什么写这篇文章?博主有两位朋友分别是小A和小B:小A,工作于传统软件行业(某社保局的软件外包公司),每天工作内容就是和产品聊聊需求,改改业务逻辑。再不然就是和运营聊聊天,写几个SQL,生成下报表。又或者接到客服的通知,某某功能故障了,改改数据,然后下班部署上线。每天过的都是这种生活,技术零成长。小B,工作于...

2018-06-03 18:33:26 267

原创 Maven私服搭建和使用

为什么要用远程仓库(私服)如果没有私服,我们所需的所有构件都需要通过maven的中央仓库和第三方的maven仓库下载到本地,而一个团队中的所有人都重复的从maven仓库下载构件,这样就加大了中央仓库的负载和浪费了外网的带宽,如果网速慢的话还会影响项目的进程。为团队创建私服,可以让公司的团队共享一套构件,加快了项目搭建的进程。所以我们选择用Nexus创建私服。 Nexus下载下载地址:http://...

2018-05-29 18:57:53 245

原创 Hive Hql基本语法

 Hive官网(HQL)语法手册(英文版): https://cwiki.apache.org/confluence/display/Hive/LanguageManual一、Hive的数据存储  1、Hive中所有的数据都存储在 HDFS 中,没有专门的数据存储格式(可支持Text,SequenceFile,ParquetFile,RCFILE等)  2、只需要在创建表的时候告诉 Hive 数据...

2018-05-29 18:49:28 570

原创 SparkSQL-02 RDD转换DF的两种方式

引用原文:Interoperating with RDDsSpark SQL supports two different methods for converting existing RDDs into Datasets.The first method uses reflection to infer the schema of an RDD that contains specific t...

2018-05-29 00:28:15 5380

powerBI单点登录

适用于门户开发,此功能只限于IE浏览器可用,使用的是ActiceXobject函数,实现单点登录

2018-02-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除