- 博客(707)
- 资源 (6)
- 收藏
- 关注
原创 Zookeeper使用Ant 编译源代码报错
E:\1_Zookeeper\WS_Zookeeper\zookeeper-master>ant.bat eclipseBuildfile: E:\1_Zookeeper\WS_Zookeeper\zookeeper-master\build.xmlant-eclipse-download: [get] Getting: http://downloads.source
2017-11-10 21:20:45 2309
原创 win7下Ant编译Zookeeper源码为Eclipse工程
1、安装ant(1)下载ant,我下载的是apache-ant-1.9.4-bin.zip(地址:http://ant.apache.org/bindownload.cgi)(2)解压到特定目录,设置ANT_HOME(ant的解压路径)和path(%ANT_HOME%\bin)(3)打开cmd,运行ant -version,出现版本信息说明安装成功了。2、下载Zoo
2017-11-10 21:06:20 313
转载 kafka源码阅读环境搭建
1、源码地址http://archive.apache.org/dist/kafka/0.10.0.0/kafka-0.10.0.0-src.tgz2、环境准备centOSgradle 下载地址 https://services.gradle.org/distributions/gradle-3.1-bin.zip 安装请参考 这里 。注意要安装3.1版本,如果
2017-11-10 16:48:50 447
转载 Windows平台搭建Kafka源代码开发环境(Eclipse版本)
Windows平台搭建Kafka源代码开发环境(Eclipse版本)原文:https://www.cnblogs.com/huxi2b/p/4364128.html最近在研究Kafka源代码,需要自己搭建一个开发环境。官网上给出的提示略显简单,照着做了一遍也碰到了一些问题。特此记录下来。开发环境: Oracle Java 1.7_u71 + Eclips
2017-11-10 16:37:47 303
原创 Hadoop常见错误之HDFS
Hadoop常见错误之HDFS1,Datanode启动失败错误 现象 在启动Datanode时, /var/log/hadoop-hdfs/hadoop-cmf-hdfs-DATANODE-hadoopserver06.log.out日志文件中有如下错误:Initialization failed for Block pool (Datanode Uuid una
2017-11-06 13:29:21 708
转载 tensorflow错误记录:tf.concat
错误提示:python TypeError: Expected int32, got list containing Tensors of type '_Message' instead.错误原因:tensorflow版本的问题:tensorflow1.0及以后api定义:(数字在后,tensors在前)tf.stack(tensors, axis=
2017-11-03 16:05:52 281
转载 NodeManager启动报错
Nodeemanager异常 org.fusesource.leveldbjni.internal.NativeDB$DBException: Corruption: checksum mismatch系统环境:ubuntu14.04 server cloudera CDH 5.10 共计28个节点。单节点内存128G。有6台机器是24核,22台机器是32核。有10台机器磁
2017-10-26 10:41:41 1385
原创 Windows上安装Tensorflow 以及集成Spark遇到的问题
Windows上安装Tensorflow参考博客: http://blog.csdn.net/u013713117/article/details/54616460第一种安装方式:使用Pip1: 安装python3.5.x2: 升级 pippython -m pip install --upgrade pip3:安装tenso
2017-10-23 10:01:28 534
转载 MR中Shuffle过程中sort总结
原文: http://blog.csdn.net/u013080251/article/details/60146294写在前面的话: 新学期开学想重新复习一下Hadoop的知识,不断更新自己的知识库,在今天晚上阅读的过程中发现,有人已经总结了Mapreduce在shuffle过程中sort的实施。我以前从来都没有深入探究过sort过程应用的算法,以及sort的次数。今天我将其总结一下
2017-10-18 14:02:56 1349
转载 自然语言处理(NLP)常用开源工具总结----不定期更新
自然语言处理(NLP)常用开源工具总结----不定期更新http://blog.csdn.net/cuixianpeng/article/details/16288307 学习自然语言这一段时间以来接触和听说了好多开源的自然语言处理工具,在这里做一下汇总方便自己以后学习,其中有自己使用过的也有了解不是很多的,对于不甚了解的工具以后学习熟悉了会做更新的。1.
2017-09-07 16:03:14 394
转载 自然语言处理怎么最快入门?
自然语言处理怎么最快入门?作者:微软亚洲研究院链接:https://www.zhihu.com/question/19895141/answer/149475410来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。针对这个问题,我们邀请了微软亚洲研究院首席研究员周明博士为大家解答。<img src="htt
2017-09-07 15:43:49 354
转载 Spark性能优化指南——基础篇
http://mp.weixin.qq.com/s?__biz=MjM5NDMwNjMzNA==&mid=2651805828&idx=1&sn=2f413828d1fdc6a64bdbb25c51508dfc&scene=2&srcid=0519iChOETxAx0OeGoHnm7Xk&from=timeline&isappinstalled=0#rd Spark性能优化指南——基础篇
2017-08-23 15:10:50 273
原创 为自己的人生负责
今天,看来一篇文章,很受用,年轻人应该必须知道四个关键词:1: 目标和梦想------------你想成为一个什么样的人???2: 原则-----------如何利用所有的工作和生活,让你成为你想成为的人????如何制定一个原则,让你成长的更快???3:学习----------如何通过学习来提升你自己各个方面的能力???4:行动---------如何通过行动来提升自己的认知???如
2017-08-19 15:32:13 344
转载 为自己定的目标
原文URL:http://blog.csdn.net/wangzhiqing3/article/details/12320553对程序员们来说挑战自我非常重要,要么不断创新,要么技术停滞不前。新年伊始,我整理了12个月的目标,每个目标都是对技术或个人能力的挑战,而且可以年复一年循环使用。01. 变得有耐心02. 保持健康03. 拥抱变化带来的不适应04.
2017-08-19 15:25:14 460
转载 Python中模块和包的概念
Python中模块和包的概念Table of Contents1 模块(Module)和包(Package)1.1 命名空间(Namespace)1.2 模块(Module)1.3 包(Package)1 模块(Module)和包(Package)1.1 命名空间(Namespace)由于在Python中一切皆为对象(Obje
2017-08-14 22:21:00 483
转载 Apache Spark 内存管理详解
Apache Spark 内存管理详解Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络,抛砖引玉,引出读者对这个话题的深入探讨。本文中阐述的原理基于 Spark 2.1 版本,阅读本文需要读者
2017-08-11 17:47:45 669
转载 HDFS原理解析(总体架构,读写操作流程)
前言HDFS 是一个能够面向大规模数据使用的,可进行扩展的文件存储与传递系统。是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上的多用户分享文件和 存储空间。让实际上是通过网络来访问文件的动作,由程序与用户看来,就像是访问本地的磁盘一般。即使系统中有某些节点脱机,整体来说系统仍然可以持续运作 而不会有数据损失。一、HDFS体系结构1、Na
2017-08-11 13:17:27 483
转载 mapreduce出现类似死锁情况
MR-------------Error------------------Reducer preempted to make room for pending map attempts Container killed by the ApplicationMaster. Container killed on request. Exit code is 143 Container e
2017-08-11 09:55:54 3016
转载 Kafka 设计与原理详解
一、Kafka简介本文综合了我之前写的kafka相关文章,可作为一个全面了解学习kafka的培训学习资料。转载请注明出处 : 本文链接1.1 背景历史当今社会各种应用系统诸如商业、社交、搜索、浏览等像信息工厂一样不断的生产出各种信息,在大数据时代,我们面临如下几个挑战:如何收集这些巨大的信息如何分析它如何及时做到如上两点以上几个挑战形成了一个业务需求模
2017-08-10 22:02:23 452
转载 Java GC基本算法
Java GC基本算法1、JVM内存组成结构JVM内存结构由堆、栈、本地方法栈、方法区等部分组成,结构图如下所示:1)堆所有通过new创建的对象的内存都在堆中分配,其大小可以通过-Xmx和-Xms来控制。堆被划分为新生代和旧生代,新生代又被进一步划分为Eden和Survivor区,Survivor由FromSpace和ToSpace组成,结构图如下所示:新生代。新建的对象都是用新生代分配内存,Ed...
2017-08-10 16:16:59 280
原创 Reduce运行到99.99%到100%,最后出现了错误,导致任务失败
Error: java.io.IOException: Failing write. Tried pipeline recovery 5 times without success. at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.processDatanodeError(DFSOutputStream.java:1113) a
2017-08-04 07:56:51 4500 1
转载 JVM堆内存相关的启动参数:年轻代、老年代和永久代的内存分配
如果想观察JVM进程占用的堆内存,可以通过命令工具jmap或者可视化工具jvisualvm.exe。JVM这些启动参数都拥有默认值,如果想了解JVM的内存分配策略,最好手动设置这些启动参数。再通过JDK提供的工具的统计结果,进行对比,就比较容易理解这些内存分配的理论知识。运行环境是win7 32位操作系统,JDK1.7.0_60版本。测试代码和JVM启动参数如下:[java
2017-08-03 16:03:27 446
原创 Hadoop集群磁盘IO 高 却一直不下降问题
Hadoop集群磁盘IO非常高问题描述如图:原因很多:1:停止应用程序2:停止服务3:监控linux系统 ,检测磁盘
2017-08-03 13:18:29 2458 2
转载 Linux下查看进程打开的文件句柄数
Linux下查看进程打开的文件句柄数---查看系统默认的最大文件句柄数,系统默认是1024# ulimit -n1024 ----查看当前进程打开了多少句柄数# lsof -n|awk '{print $2}'|sort|uniq -c|sort -nr|more131 24204 57 24244 57 24231 ........其中第一列
2017-08-03 10:41:07 458
原创 MapReduce运行任务报错
MapReduce运行任务报错如下:Error: java.io.IOException: Failing write. Tried pipeline recovery 5 times without success. at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.processDatanodeError(DF
2017-08-03 10:37:23 4711
转载 Java线程池ThreadPoolExecutor使用和分析
Java线程池ThreadPoolExecutor使用和分析(一)http://www.cnblogs.com/trust-freedom/p/6594270.htmlJava线程池ThreadPoolExecutor使用和分析(二) - execute()原理http://www.cnblogs.com/trust-freedom/p/6681948.html
2017-08-02 13:53:13 257
转载 Linux 下chmod 和 chown 以及 chgrp和用法和区别
1、chgrp(转变文件所属用户组)chgrp 用户组 文件名 ###便是这个格了。若是整个目次下的都改,则加-R参数用于递归。如:chgrp -R user smb.conf2、chown(转变文件拥有者)格局: A:chown 用户名 文件/目次B:chown 用户名:用户组 文件/目次若是整个目次下的都改,则加-R参数用于递
2017-08-02 09:32:00 603
转载 查看Spark进程的JVM配置及内存使用
查看Spark进程的JVM配置及内存使用如何查看正在运行的Spark进程的JVM配置以及分代的内存使用情况,是线上运行作业常用的监控手段:1、通过ps命令查询PID[plain] view plain copyps -ef | grep 5661 可以根据命令中的特殊字符来定位pid
2017-08-01 12:02:17 2689
转载 聊聊JVM(四)深入理解Major GC, Full GC, CMS
聊聊JVM(四)深入理解Major GC, Full GC, CMS很多人都分不清Major GC, Full GC的概念,事实上我查了下资料,也没有查到非常精确的Major GC和Full GC的概念定义。分不清这两个概念可能就会对这个问题疑惑:Full GC会引起Minor GC吗?经过一系列的查找和对JVM表现的分析,基本可以给Full GC和Major GC下一
2017-07-30 16:35:44 450
转载 Minor GC、Major GC和Full GC之间的区别
Minor GC、Major GC和Full GC之间的区别本文由 ImportNew - 光光头去打酱油 翻译自 javacodegeeks。欢迎加入翻译小组。转载请见文末要求。在 Plumbr 从事 GC 暂停检测相关功能的工作时,我被迫用自己的方式,通过大量文章、书籍和演讲来介绍我所做的工作。在整个过程中,经常对 Minor、Major、和 Full GC 事件的
2017-07-30 15:24:31 381
转载 Spark Core Aggregator
Spark Core Aggregator本文要介绍的是Spark Core中的Aggregator这个类。这个类的用处非常大,为什么这么说呢?我们都知道Spark支持传统的MapReduce模型,并基于这种模型提供了比Hadoop更多更高层次的计算接口。比如Spark Core PairRDD中非常常用的:reduceByKey 提供聚合函数,将k-v对集合将相同key
2017-07-29 14:25:59 963
转载 HBase如何合理设置客户端Write Buffer
Hbase客户端API提供了Write Buffer的方式,即批量提交一批Put对象到hbase服务端。本文将结合HBase相关源码,对其进行深入介绍,分析如何在实际项目中合理设置和使用它。什么时候需要Write Buffer?默认情况下,一次Put操作即要与Region Server执行一次RPC操作,其执行过程可以被拆分为以下三个部分:T1:RTT(Round-Trip
2017-07-24 12:45:21 407
转载 Hbase行键过滤器RowFilter
RowFilter是用来对rowkey进行过滤的,比较符如下:OperatorDescriptionLESS小于LESS_OR_EQUAL小于等于EQUAL等于NOT_EQUAL不等于
2017-07-17 12:30:41 552
转载 JVM的堆(heap)、栈(stack)和方法区(method)
JVM主要由类加载器子系统、运行时数据区(内存空间)、执行引擎以及与本地方法接口等组成。其中运行时数据区又由方法区Method Area、堆Heap、Java stack、PC寄存器、本地方法栈组成。堆区:1.存储的全部是对象,每个对象都包含一个与之对应的class的信息。(class的目的是得到操作指令)2.jvm只有堆区(heap)和方法区(下面)被所有线程共享,堆中不
2017-07-08 12:31:09 302
转载 实时流计算Spark Streaming原理介绍
实时流计算Spark Streaming原理介绍 1、Spark Streaming简介1.1 概述Spark Streaming 是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据,包括Kafk、Flume、Twitter、ZeroMQ、Kinesis 以及TCP sockets,从数据源获取数
2017-07-08 11:32:12 514
转载 SparkSQL的原理以及架构
SparkSQL的原理以及架构1、SparkSQL的发展历程1.1 Hive and SharkSparkSQL的前身是Shark,给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,Hive应运而生,它是当时唯一运行在Hadoop上的SQL-on-hadoop工具。但是MapReduce计算过程中大量的中间磁盘落地过程消耗了大量的I/O,
2017-07-08 10:44:53 1029
转载 hbase的cache与batch的理解
hbase的cache与batch的理解http://www.cnblogs.com/editice/archive/2013/04/22/3035728.htmlcache: 在默认情况下,如果你需要从hbase中查询数据,在获取结果ResultScanner时,hbase会在你每次调用ResultScanner.next()操作时对返回的
2017-07-05 12:53:21 369
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人