自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(47)
  • 资源 (2)
  • 收藏
  • 关注

转载 什么是JMX?

所谓JMX,是Java Management Extensions(Java管理扩展)的缩写,是一个为应用程序植入管理功能的框架。用户可以在任何Java应用程序中使用这些代理和服务实现管理。一、JMX架构图从图中我们可以看到,JMX的结构一共分为三层:1、 基础层:主要是Mbean,被管理的java beanMbean分为如下四中 类型 ...

2019-09-30 14:23:34 560

转载 cassandra安装配置

准备运行环境1.1 cassandra可以安装在windows和linux下,本例子安装在centos6.7的环境下。1.2 关闭防火墙。或者开放9042(默认的CQL本地服务端口)、9160(默认的Cassandra服务端口)、7000(Cassand集群内节点间通讯端口)、7199端口(Cassandra JMX 监控端口)  关闭防火墙: 1 service iptables sto...

2019-09-29 14:17:32 825

转载 linux配置java环境变量(详细)

一. 解压安装jdk在shell终端下进入jdk-6u14-linux-i586.bin文件所在目录,执行命令 ./jdk-6u14-linux-i586.bin 这时会出现一段协议,连继敲回车,当询问是否同意的时候,输入yes,回车。之后会在当前目录下生成一个jdk1.6.0_14目录,你可以将它复制到 任何一个目录下。二. 需要配置的环境变量1. PATH环境变量。作用是指定命令...

2019-09-29 14:11:41 222

转载 NoSpamLogger.java Maximum memory usage reached Cassandra

问题:I have a 5 node cluster of Cassandra, with ~650 GB of data on each node involving a replication factor of 3. I have recently started seeing the following error in /var/log/cassandra/system.log...

2019-09-28 21:58:51 1408

转载 cassandra 添加节点

特别说明无论你是添加新的节点还是替换一个节点,请准备全新的机器,特别是这台机器一定不要曾经安装过cassandra,如果这台机器曾经安装过cassandra(特别是cassandra 安装目录下的data目录还有日志),数据丢失后果自负。安装步骤增加一个节点和替换一个DOWN掉的节点,步骤都是一样的,只是启动参数不一样准备一个新机器,cassandra的配置使用和集群中一个普通...

2019-09-28 21:42:45 1534

转载 Cassandra cqlsh命令大全

分享一个朋友的人工智能教程。比较通俗易懂,风趣幽默,感兴趣的朋友可以去看看。一:CQL 简介CQL是Cassandra Query Language的缩写,目前作为Cassandra默认并且主要的交互接口。CQL和SQL语法很相似,主要的区别是cql不支持join和子查询,相对来说没有sql那么强大。二:Shell 命令// 登录shellD:\Java\apac...

2019-09-28 19:05:15 670

转载 Impala导出查询结果到文件

想用impala-shell 命令行中将查询的结果导出到本地文件,想当然的以为impala 和 hive 一样可以用 insert overwrite local directory ‘/home/test.txt’ select ……. 这样的命令导出到本地,执行了一下,发现impala 不支持这个。然后查了一下,发现impala-shell 可以像mysql 一样的方式导出查询结果到...

2019-09-27 10:52:38 648

转载 [Hive]Hive指定查询输出分隔符

业务场景做数据分析的时候,经常会用到hive -e "sql" > xxx.txt或者最原始的hive命令行来获得查询结果,然后再将查询结果放到Excel等工具中,但是如果查询的字段太多,这时候将查询结果放到Excel会经常会碰到错位问题,很是头疼.解决方案一:借助linux管道替换输出分隔符样例如下:# 方法一:sedhive -e "select * from ...

2019-09-27 10:35:38 1087

转载 hive输出格式转化,本例以json为例

hive默认是以tab为分隔符,分隔各个输出字段,如 hive> select get_json_object(json.value,'$.hour'),get_json_object(json.value,"$.channel") from json limit 10; Total MapReduce jobs = 1 Launching Job ...

2019-09-27 10:30:04 1411

转载 hive输出json字符串

目前没发现有什么方便的函数可以直接使用,只能使用concat来手工拼接。注意将null的字段值转为空,使用nvl函数 如果将hql语句写在script.q文件里面如下: select concat('{"data_dt":"',a.data_dt,'","user":"',NVL(a.`user`, ''),'","click":"',NVL(a.click, ''),'"...

2019-09-27 10:25:30 1268

转载 尾调用与尾递归优化

 〇、是为序 以前也看到过尾递归及其优化,但在当时并不完全能够理解,最近几天陆陆续续复习了一下《汇编语言》和《自己动手写操作系统》两本书,对于函数调用背后的栈机制有了更加清晰的理解,回过头来看尾递归就觉得容易理解多了。  就像阮一峰老师在下文中所写的那样,栈溢出在递归程序编写过程中是常会出现的错误,但有时把递归程序改写成非递归可能并非易事,此时考虑一下采用尾递归或者相关优化技术就...

2019-09-26 20:42:22 337

转载 linux shell 字符串操作详解 (长度,读取,替换,截取,连接,对比,删除,位置 )

1.Linux shell 截取字符变量的前8位实现方法有如下几种:expr substr “$a” 1 8 echo $a|awk ‘{print substr(,1,8)}’ echo $a|cut -c1-8 echo $ expr $a : ‘\(.\\).*’ echo $a|dd bs=1 count=8 2>/dev/null2.按指定的字符串截...

2019-09-25 18:26:31 1665 1

转载 shell 如何判断某个文件名以某个字符开头~

问题:shell 如何判断某个文件名以某个字符开头~解决:#var="cn get the length of me"#$1: parameter 1 传要判断的文件名字var=$1isCN=false#${var:0:2}取var子串,从第0个字符起,取2两个字符if [[${var:0:2}-eq"cn"]]thenecho sub is chinese $...

2019-09-25 18:15:00 4874

转载 shell中的set -x

set -x 调试shell脚本时使用的命令,可以跟踪脚本的执行。 设置-x选项后,之后执行的每一条命令,都会显示的打印出来; 在命令之前输出一个+号,并打印出替换变量后的命令内容; 可以分析脚本中但前正在执行什么命令。 如下图所示: 可以使用set +x 关闭调试文章参考:set -x 命令...

2019-09-25 14:20:11 664 1

转载 Hive读取不到Flume正在写入的HDFS临时文件的解决办法

问题导读1.本文的应用场景是什么?2.Hive读取不到Flume正在写入的HDFS临时文件,该如何解决?实际工作遇到如下场景:应用服务器收集到的日志信息,通过Flume写入到HDFS指定目录,而Hive将其映射到表,进行离线统计。计划计划方式处理:Hive的表创建为外部分区表,例如:USE mydb; CREATE EXTERNAL TABLE mytable ( ...

2019-09-25 11:51:26 1710

转载 Flink BucketingSink with Custom AvroParquetWriter create empty file

问题:I have created a writer for BucketingSink. The sink and writer works without error but when it comes to the writer writing avro genericrecord to parquet, the file was created from in-progress,...

2019-09-25 10:47:24 553

转载 判断单链表中是否有环,找到环的入口节点

这类问题通常使用双指针的方法,即一个快指针一个慢指针。faster = faster.next.next;slower = slower.next;“公理”:两指针相遇时,快指针走过的路程为慢指针的2倍。链表有环时,有以下3种情况,右边和下边都是第一种的特例,下文以第一种为讨论对象。1.判断是否有环两个指针开始时均指向头节点,快指针每次跨2个节点,慢指针每次跨1个...

2019-09-24 21:23:43 182

转载 Flink BucketingSink 源码分析

0x1 摘要BucketingSink类提供了非常完美的功能支持数据落HDFS,在实际业务中不建议自己去实现,直接采用此类可以避免一些坑。注:此文基于Flink 1.6.3 版本源码。0x2 BucketingSink 类结构分析我们关注RichSinkFunction、CheckpointedFunction、CheckpointListener三个父类0x3 先看...

2019-09-24 18:06:17 1109

转载 深入理解幂等性

什么是幂等性HTTP/1.1中对幂等性的定义是:一次和多次请求某一个资源对于资源本身应该具有同样的结果(网络超时等问题除外)。也就是说,其任意多次执行对资源本身所产生的影响均与一次执行的影响相同。Methods can also have the property of “idempotence” in that (aside from error or expiration issue...

2019-09-24 17:04:40 100

原创 Cassandra数据类型与Java数据类型对应关系

CQL类型 对应Java类型 描述 ascii String ascii字符串 bigint long 64位整数 blob ByteBuffer/byte[] 二进制数组 boolean boolean 布尔 counter long 计数器,支持原子性的增减,不支持直接赋值 decimal ...

2019-09-24 10:35:02 663

转载 Scala编程中常见错误:Error:(28, 21) value foreach is not a member of java.util.List[String]

问题展示在 Scala 编程中经常会使用 Java 的集合类型,但是使用中会出现如下错误:java.util.List[String]Error:(28, 21) value foreach is not a member of java.util.List[String] for(line <- lines){2.java.util.Set[Stri...

2019-09-23 18:22:14 1079

转载 腾讯Flink实践:实时计算平台Oceanus建设历程

2019年4月1-2日,Flink Forward 2019 San Francisco会议在旧金山召开。Flink Forward会议邀请了来自Google, Uber, Netflix和Alibaba等公司在实时计算领域的顶尖专家和一线实践者,深入讨论了Flink社区的最新进展和发展趋势,以及Flink在业界的应用实践。随着近年来对Flink技术的广泛应用以及对Flink社区的活跃贡献,...

2019-09-23 11:53:33 832

转载 如何设计RTDP(上篇)

1导读:本文将会分上下两篇对一个重要且常见的大数据基础设施平台展开讨论,即“实时数据平台”。在上篇设计篇中,我们首先从两个维度介绍实时数据平台:从现代数仓架构角度看待实时数据平台,从典型数据处理角度看待实时数据处理;接着我们会探讨实时数据平台整体设计架构、对具体问题的考量以及解决思路。在下篇技术篇中,我们会进一步给出实时数据平台的技术选型和相关组件介绍,并探讨不同模式适用哪些应用场景...

2019-09-23 11:36:21 244

转载 如何设计实时数据平台(下篇)

敏捷之歌我抽数故我存在 | DBus人人玩转流处理 | Wormhole就当吾是数据库 | Moonbox颜值最后十公里 | Davinci导读:实时数据平台(RTDP,Real-time Data Platform)是一个重要且常见的大数据基础设施平台。在上篇(设计篇)中,我们从现代数仓架构角度和典型数据处理角度介绍了RTDP,并探讨了RTDP的整体设计架构。本文作为下...

2019-09-23 11:33:47 226

转载 Flink 远程提交任务 java.lang.ClassCastException LinkedMap

问题来源Flink本地提交任务运行正常,然后打包成jar在远程的Flink上运行失败。注意:打包的jar不能通过java -jar 运行,即使你的jar和Flink在一台机器上。例如Flink安装在E:\software\flink-1.7.2-bin-scala_2.12\flink-1.7.2,jar放在E:\software\flink-1.7.2-bin-scala_2...

2019-09-20 15:44:17 2684 1

原创 Exception in thread "main" java.lang.ClassNotFoundException: com.xxx.flink.udx.TimeFormatUDF

public static void main(String[] args) throws Exception{ String classPath = "com.xxx.flink.udx.TimeFormatUDF"; ClassLoader threadClassLoader = Thread.currentThread().getContextClassLoader()...

2019-09-20 14:41:40 411

转载 使用Linux的alternatives命令替换选择软件的版本

  上周在安装搜索引擎Elasticsearch时,要求安装比较新的java 版本,我选择了java 1.8.0,安装java 成功后使用java -version 发现使用的版本仍旧是1.6.0,查询了一些资料,发现可以使用Linux的alternatives命令替换选择软件的版本。说明:alternatives --install <link> <name&...

2019-09-19 17:20:13 182

转载 SSD固态硬盘坏了,还能修好吗?

老许生活之体验发布时间:18-07-3106:33一、固态硬盘坏了还能修好吗?出现不认盘、掉盘、无法读写等很严重的故障时,很多人直接找售后,而大多数坏的时候都过了保质期,这时候该怎么办呢?很多人都直接丢了,但实际上有些还是可以修好的,用固态硬盘开卡软件就行,就像U盘量产工具一样,可以修复ssd的故障问题。固态硬盘开卡必须短接ROM数据脚,也就是说要拆开硬盘盒,找到ROM数...

2019-09-17 18:57:13 14180 4

转载 用于实时大数据处理的Lambda架构

1.Lambda架构背景介绍Lambda架构是由Storm的作者Nathan Marz提出的一个实时大数据处理框架。Marz在Twitter工作期间开发了著名的实时大数据处理框架Storm,Lambda架构是其根据多年进行分布式大数据系统的经验总结提炼而成。Lambda架构的目标是设计出一个能满足实时大数据系统关键特性的架构,包括有:高容错、低延时和可扩展等。Lambda架构整合离线计算和...

2019-09-17 14:20:43 234

转载 Lambda架构通俗理解——离线 & 实时数据的一致性,kafka不丢数据的实现

采用Lambda架构的目的是保证实时和离线数据的一致性。通俗简单理解就是:kafka中的实时数据分两个条线(1)实时条线,通过Storm、SparkStreaming、Flink等大数据实时处理框架,将kafka中的数据进行实时处理,然后将计算逻辑封装成jar包。(2)离线条线,通过Hive等,当天结束后,对上面封装成的jar包跑一遍,将离线数据分析结果导入数据应用层,覆盖掉当天...

2019-09-17 14:18:31 732

转载 Apache Flink 在同程艺龙实时计算平台的研发与应用实践

简介:本文主要介绍 Apache Flink 在同程艺龙的应用实践,从当前同程艺龙实时计算平台现状、建设过程、易用性提升、稳定性优化四方面分享了同城艺龙实时计算平台的建设经验,供大家参考。本文主要介绍 Apache Flink 在同程艺龙的应用实践,从当前同程艺龙实时计算平台现状、建设过程、易用性提升、稳定性优化四方面分享了同城艺龙实时计算平台的建设经验,供大家参考。1.背景介绍在 ...

2019-09-17 11:36:16 251

转载 bitmap海量数据的快速查找和去重

题目描述给你一个文件,里面包含40亿个整数,写一个算法找出该文件中不包含的一个整数, 假设你有1GB内存可用。如果你只有10MB的内存呢?对于40亿个整数,如果直接用int数组来表示的大约要用40*10^8*4B=16GB,超出了内存要求,这里我们可以用bitmap来解决,bitmap基本思想是一位表示一个整数,比如我们有6个数据:7 3 1 5 6 4假设bitmap容量...

2019-09-12 17:15:29 1472

转载 BloomFilter & Hyperloglog 去重 & 统计

去重小结最近在做爬虫的时候,遇到了去重的问题,关于去重,有很多地方可以做,比如内存级别,利用 hashmap,准确,性能好但是内存有限 数据库,利用唯一键,准确,存储量大但是性能差 内存级别 BloomFilter,利用 bitmap,性能好,存储量比 hashmap 大得多,但是有误差 实际使用的时候要根据场景去 tradeoff,没有最好的办法,只有最合适的办法基数统计...

2019-09-12 17:12:09 712

转载 学习 Flink(十七):HyperLogLog 去重计数

在需要对数据进行去重计数的场景里,实现方式是将数据明细存储在集合的数据结构中。然而,随着数据随时间的不断累积,明细数据占用了大量的存储空间。使用 HyperLoglog 去重计数,在牺牲非常小准确性的情况下,可以极大的减少数据存储。依赖编辑 pom.xml 文件,添加依赖:<dependency> <groupId>net.agkn</...

2019-09-12 17:00:44 989

转载 Spark on hive 与 hive on spark 的区别

1、spark on hive是spark 通过Spark-SQL使用hive 语句,操作hive ,底层运行的还是 spark rdd.(1)就是通过sparksql,加载hive的配置文件,获取到hive的元数据信息(2)spark sql获取到hive的元数据信息之后就可以拿到hive的所有表的数据(3)接下来就可以通过spark sql来操作hive表中的数据2、hiv...

2019-09-12 16:54:38 775

转载 java major version(转)

在jar包中,用winrar解压一个类文件,然后在命令行下面输入  javap -verbose classname  会输出一些信息,大致如下:  Compiled from "HtmlCrawer.java"  public class org.eagleeye.html.HtmlCrawer extends java.lang.Object  SourceFile: "H...

2019-09-06 09:46:52 483

原创 linux shell:远程执行shell命令查询Cassandra

#arr=("suxinghe" "tianshantonglao")arr=("taohuaxian")for mm in ${arr[@]}do#scp /opt/cloudera.tar bigdata@$mm:/home/bigdata/echo $mm##############:<<!ssh -Tq bigdata@$mm << remote...

2019-09-05 17:28:21 932 1

原创 shell脚本:远程机器上执行shell命令

arr=("suxinghe" "tianshantonglao" )#arr=("dongfangbubai")for mm in ${arr[@]}do#scp /opt/cloudera.tar bigdata@$mm:/home/bigdata/echo $mm##############:<<!ssh -Tq bigdata@$mm << re...

2019-09-05 17:26:51 1129

转载 陆奇:除了好代码,工程师怎样才算优秀?

个人非常崇拜陆奇陆奇以精力旺盛著称,通常凌晨4点起床,先查邮件,然后在跑步机上跑4英里,边跑边听古典音乐或看新闻。早上5点至6点就办公室,利用这段时间不受别人干扰准备一天的工作,然后一直工作到晚上10点,有时也会在半夜给同事发电子邮件。LinkedIn CEO 杰夫·维纳(Jeff Weiner)曾在雅虎与陆奇共事多年,他开始以为这种日程安排无法持久,后来不得不说:“陆奇的确是我所见过最有干...

2019-09-05 14:52:36 144

转载 在idea中使用CheckStyle来规范代码

CheckStyle是SourceForge下的一个项目,提供了一个帮助JAVA开发人员遵守某些编码规范的工具。它能够自动化代码规范检查过程,从而使得开发人员从这项重要,但是枯燥的任务中解脱出来。idea版(版本:2018.2)在idea中集成CheckStyleFile->Setting->Plugins至下图界面,搜索CheckStyle-IDEA,点击安装。在...

2019-09-03 18:50:04 1391

Google.Android.SDK开发范例大全.pdf

Google.Android.SDK开发范例大全.pdf

2013-06-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除