自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

刘飞强丶Conan

我正在走向大数据首席架构师的路上......

  • 博客(31)
  • 资源 (3)
  • 收藏
  • 关注

原创 SparkSQL文件格式和压缩算法是否支持Split

CSV:继承自org.apache.spark.sql.execution.datasources.TextBasedFileFormat,所以必须满足文本文件可分割的条件。除此之外还必须满足CSV文件支持Split,CSV实现了两种读取方式TextInputCSVDataSource和MultiLineCSVDataSource,第一种支持Split,第二种不支持,可以自行查看源码。

2023-06-04 13:06:06 1082

原创 Flink Watermark概要

Watermark和代码是基于 Flink1.12版本的,概念相似。有时间会陆续完善Watermark包含几个重要的知识点抽时间积累点知识,网上文档很多,仅根据自己的理解,概括性的记录下名称: 水位线 , 水印都行,就一个名字而已下文中的事件,指代数据库记录,log日志,流量日志,度量信息等等Watermark应用场景,如果这两个场景不满足,则不太需要考虑Watermark1. window算子2. EventTime作为计算时间注:Flink有三个时间,Ingest

2022-05-21 18:42:10 396

原创 Runtime.getRuntime().exec() 日志阻塞问题定位到解决

1. 发现问题工作中使用java程序导数据,该导数据的java程序是通过另外一个java程序通过Runtime.getRuntime().exec() 启动的。总是会出现数据传输到一半就卡住了,不会继续传输,也不会失败纹丝不动,不生不死2. 定位问题查看java进程pid :jps -lm查看java进程占用资源情况: top -p pid再查看该java进程中线程资源使用情况:top -H -p pid发现该java程序,一点资源也不占用,0cpu 0mem..

2020-07-04 18:17:03 2510

原创 Hive任务超时报错 Invalid OperationHandle

一个奇怪的问题有个任务报错如下Invalid OperationHandle: OperationHandle [opType=EXECUTE_STATEMENT, getHandleIdentifier()=373ae075-499f-4ccf-a75b-43152be71c67]查看hiveserver2的日志2020-04-28 06:06:50,413 WARN org...

2020-04-28 10:46:16 11450 2

转载 训练集和测试集的区别

1、训练集和测试集一般来说,训练集用来估计模型中的参数,使模型能够反映现实,进而预测未来或其他未知的信息,而测试集用来评估模型的预测性能。例如:已知1000个小朋友的体重和身高数据,想建立体重与身高的线性回归模型。我们可以用900个小朋友的身高和体重数据(训练集)来拟合模型中的参数,进而预测另外100个小朋友的体重(已知身高数据),预测值和实际值的差别就可以用来衡量模型的预测性能(测试集是...

2020-02-19 15:44:44 42000 3

原创 海量数据高并发的访问技术解决方案

海量数据高并发的访问技术解决方案

2017-06-14 20:07:45 792

原创 Hive SQL 一些窗口函数,分析函数的使用小例子

hive 窗口函数 分析函数

2017-03-23 10:59:22 611

原创 Hive使用json_tuple, posexplode 解析 json

Hive使用json_tuple, posexplode 解析 json,lateral view

2017-03-18 17:52:55 16051

转载 Hive分析窗口函数(五) GROUPING SETS,GROUPING__ID,CUBE,ROLLUP

HIVE窗口函数

2016-12-07 19:08:53 367

转载 大型网站架构之分布式消息队列

消息队列

2016-11-25 17:00:34 355

原创 Http请求:java.net.URLConnection java.net.HttpURLConnection

http请求

2016-11-25 15:59:16 366

原创 java.security.MessageDigest 信息加密

加密 MD5 SHA-1

2016-11-25 10:18:17 408

转载 十年了,Hadoop的前世今生

Hadoop的前世今生

2016-11-18 17:22:09 9968 1

原创 Spark从零开始学 三

spark 函数api

2016-11-09 10:55:13 402

原创 RHEL6.5使用问题解决方案

1.使用yum工具安装gcc时提示没有包可用   解决:将光盘或镜像文件挂载上去:mount /dev/cdrom /media             编辑装载包的文件设置:vi /etc/yum.repos.d/rhel-debuginfo.repo,修改为下面实例             [rhel-Server]             name=Red Hat Enter

2015-07-26 09:30:27 863

原创 Linux常用命令操作

系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作系统信息 arch 显示机器的处理器架构(1)

2015-05-13 11:29:24 470

转载 Hadoop脚本解析大全

${HADOOP_CONF_DIR:-$HADOOP_PREFIX/$DEFAULT_CONF_DIR}

2015-05-08 19:45:42 401

转载 Hadoop默认端口查询

Hadoop集群的各部分一般都会使用到多个端口,有些是daemon之间进行交互之用,有些是用于RPC访问以及HTTP访问。而随着Hadoop周边组件的增多,完全记不住哪个端口对应哪个应用,特收集记录如此,以便查询。这里包含我们使用到的组件:HDFS, YARN, HBase, Hive, ZooKeeper:组件节点默认端口配置用途说明

2015-05-07 19:13:19 1729

转载 Linux集群时间同步

本文转载:仅供参考,有linux基础的一般看看就知道要修改些什么了,不能完全照抄,你不一定机器能跟作者一样打算将11台Linux集群时间同步一下,操作系统都为Ubuntu 11.04 x86 64位选定其中一台133.133.10.2作为时间服务器(ntp server),其他节点与该节点进行时间同步。 第一种方法:1、在133.133.10.2(mon

2015-04-29 20:54:31 556

转载 CentOS6.5挂载windows共享文件夹

CentOS6.5挂载windows共享文件夹由于工作需要,需要把本机的文件夹共享出去,然后让CentOS服务器临时使用下。服务器使用的是CentOS系统,而本机使用的win7系统。考虑到是临时使用,所以就不打算搭建FTP和Samba服务器,神思保持通过CentOS挂载windows共享文件夹的方式来达到此目的。既然是使用windows共享文件夹的方式,那么我们

2015-04-26 15:30:03 2401

转载 大数据相关博客文章

大数据——应对海量数据挑战方面的见解和经验

2015-03-20 10:31:47 584

转载 Sqoop-1.4.4使用

Sqoop安装配置及演示Sqoop-1.4.4安装配置及基本使用

2015-01-21 14:53:22 392

转载 自己编写脚本启动hadoop各个守护进程需要的特别配置

脚本启动zookeeper集群需要的特别配置我写了一个启动zookeeper的脚本d.sh。启动时提示成功了不了,但实际上没有成功脚本:脚本很简单内容如下:[root@crxy1 local]# more d.sh #!/bin/sh echo "start zkServer..." for i in 1 2 3 do ssh crxy$i "/usr/

2015-01-18 22:17:05 545

转载 crontab : 设置脚本自动执行命令

http://os.51cto.com/art/201205/334502.htm使用crontab你可以在指定的时间执行一个shell脚本或者一系列Linux命令。例如系统管理员安排一个备份任务使其每天都运行如何往 cron 中添加一个作业?# crontab –e0 5 * * * /root/bin/backup.sh这将会在每天早上5点运行 /root/bin/

2015-01-16 18:58:52 659

转载 linux shell脚本学习

Linux Shell 脚本攻略

2015-01-13 13:48:34 430

原创 Nagios4.0.8 详细安装配置

为百度知道的更多,我记录下我与网络上讲述的不一样的地方,标上注意点为新手多点资料,一些小细节烦死人1.下载nagios-4.0.8.tar.gz  和  nagios-plugins-2.0.tar.gzwget http://jaist.dl.sourceforge.net/project/nagios/nagios-4.x/nagios-4.0.8/nagios-4.0.8.tar

2015-01-12 16:42:05 1726

原创 hadoop集群配置Ganglia监控

根据网友的介绍,简单配置了一个集群,用作记录我的集群hadoop1            192.168.1.151              gmetad 和 gmondhadoop2            192.168.1.152              gmondhadoop3            192.168.1.153              gmondha

2015-01-05 16:56:44 669

原创 配置Hadoop-2.4.0的HA+Federation+Yarn详细记录

配置Hadoop-2.4.0的HA+Federation+Yarn详细记录

2014-12-28 10:50:21 1168

原创 Hive-0.14.0与mysql配置

hive配置与mysql连接

2014-12-21 21:11:00 724

原创 Hadoop操作错误记录

1.在手动执行bin/hdfs secondarynamenode -checkpoint force手动执行checkpoint检查时出现错误14/12/20 15:17:43 INFO common.Storage: Cannot lock storage /usr/local/hadoop/dfs/checkpoint. The directory is already locked

2014-12-20 15:28:04 550

原创 HBase伪分布式,集群安装配置

1.常规安装好Hadoop后,需要启动HDFS,HBase是建立在HDFS之上的2.下载HBase版本,这里注意了,你的Hadoop版本要和Hbase版本一致,否则会报两个协议不一致的错误,我用的是Hadoop2.4.0和HBase0.99.2,对于网上说的要用Hadoop里的core文件替换HBase的lib文件夹中包文件,Hadoop2中的core文件已经分散到share文件夹下,我是不会

2014-12-20 13:45:19 790

Oracle_sql经典查询实例.doc

oracle数据库的基本sql查询,涵盖了你可以遇到的绝大多数查询,

2015-12-15

Linux命令和常用操作

这是些命令的常用操作,包括一些Linux操作

2015-12-14

BIOS设置技巧大全

全面的设置技术和信息,BIOS设置技巧大全。

2012-07-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除