- 博客(9)
- 资源 (3)
- 问答 (1)
- 收藏
- 关注
原创 class kafka.common.NotLeaderForPartitionException(kafka.server.ReplicaFetcherThread)异常处理
[2017-06-15 19:33:14,716] ERROR [ReplicaFetcherThread-0-0], Error for partition [3_7_0_20170615,6] to broker 0:class kafka.common.NotLeaderForPartitionException (kafka.server.ReplicaFetcherThread)[20...
2018-03-31 14:21:10 6786
转载 Hive实现分组排序或者分页
使用到的语法:ROW_NUMBER() OVER(PARTITION BY COLUMN ORDER BY COLUMN)简单的说row_number()从1开始,为每一条分组记录返回一个数字,这里的ROW_NUMBER() OVER (ORDER BY xlh DESC) 是先把xlh列降序,再为降序以后的没条xlh记录返回一个序号。 表示根据COL1分组,在分组内部根据 COL2排序,而此函数...
2018-03-27 23:24:42 4596
转载 五种开源协议的比较(BSD,Apache,GPL,LGPL,MIT)
五种开源协议的比较(BSD,Apache,GPL,LGPL,MIT)发表于: 互联网 | 作者: 博客教主标签: Apache,BSD,GPL,LGPL,MIT,协议,开源当Adobe、Microsoft、Sun等一系列巨头开始表现出对”开源”的青睐时,”开源”的时代即将到来!现今存在的开源协议很多,而经过Open Source Initiative组织通过批准的开源协议目前有58种(http:/...
2018-03-23 17:43:21 1259
原创 永久关闭linux swap
一般来说,Linux的虚拟内存会根据系统负载自动调整。内存页(page)swap到磁盘会显著的影响Kafka的性能,并且Kafka重度使用page cache,如果VM系统swap到磁盘,那说明没有足够的内存来分配page cache。 避免swap的一种方式是设置swap空间为0。但是,swap会在系统崩溃时提供安全机制,或者会在out of memory的情况下阻止操作系统 kill 掉进程。...
2018-03-22 16:47:05 54384
原创 journalnode Can't scan a pre-transactional edit log异常处理
一个测试环境hadoop集群由于磁盘满导致宕机,启动后发现journalnode报如下异常:2018-03-19 20:48:04,817 WARN namenode.FSImage (EditLogFileInputStream.java:scanEditLog(359)) - Caught exception after scanning through 0 ops from /data1_...
2018-03-20 17:03:58 3340
原创 该虚拟机的某个磁盘已经由虚拟机或者快照使用 问题解决
解决方式如下:1)删除虚拟机配置文件下面的.lck文件2)删除类型为快照的.vmsn/.vmsd文件然后重启虚拟机即可
2018-03-19 02:19:29 16336 5
转载 np.linalg.norm(求范数)
1、linalg=linear(线性)+algebra(代数),norm则表示范数。2、函数参数[python] view plain copyx_norm=np.linalg.norm(x, ord=None, axis=None, keepdims=False) ①x: 表示矩阵(也可以是一维)②ord:范数类型向量的范数:矩阵的范数:ord=1:列和的最大值ord=2:|λE-ATA|=0...
2018-03-19 00:50:49 5157
原创 大数据存储平台调优之Hadoop优化
大数据存储平台调优之Hadoop优化在上节搭建完集群、完成Linux系统配置(优化)后以及建好HDFS上的目录后,我们接下来需要对Hadoop集群做一些优化的工作。我们从两个方面来说:一是HDFS存储方面,一是计算方面 1、 HDFS方面:1> 存储格式的选择对于分析类型的业务来说,最好的存储格式自然是列存储,因为数据量巨大,只扫关心的数据列无疑具有很大优势。目前hadoop...
2018-03-15 23:22:54 2691
原创 大数据存储平台之异构存储实践
经常做数据处理的伙伴们肯定会有这样一种体会:最近一周内的数据会被经常使用到,而比如最近几周的数据使用率会有下降,每周仅仅被访问几次;在比如3月以前的数据使用率会大幅下滑,存储的数据可能一个月才被访问几次。这就产生了一种热和冷数据,对需要频繁访问的数据我们称之为“热”数据,反之我们称之为”冷”数据,而处于中间的数据我们称之为”温”数据。在数据被视为公司资产的时代,每个公司基本都会保存最近数年的数据,...
2018-03-13 10:28:11 5829
ippicv_linux_20151201.tgz
2018-04-07
如何在线试用Demo?
2021-01-07
TA创建的收藏夹 TA关注的收藏夹
TA关注的人