XiaoGuang-Xu-CSDN博客

原创 Zookeeper使用Ant 编译源代码报错

E:\1_Zookeeper\WS_Zookeeper\zookeeper-master>ant.bat eclipseBuildfile: E:\1_Zookeeper\WS_Zookeeper\zookeeper-master\build.xmlant-eclipse-download: [get] Getting: http://downloads.source

2017-11-10 21:20:45 2309

原创 win7下Ant编译Zookeeper源码为Eclipse工程

1、安装ant（1）下载ant，我下载的是apache-ant-1.9.4-bin.zip（地址：http://ant.apache.org/bindownload.cgi）（2）解压到特定目录，设置ANT_HOME（ant的解压路径）和path（%ANT_HOME%\bin）（3）打开cmd，运行ant -version，出现版本信息说明安装成功了。2、下载Zoo

2017-11-10 21:06:20 313

转载 kafka源码阅读环境搭建

1、源码地址http://archive.apache.org/dist/kafka/0.10.0.0/kafka-0.10.0.0-src.tgz2、环境准备centOSgradle 下载地址 https://services.gradle.org/distributions/gradle-3.1-bin.zip 安装请参考这里。注意要安装3.1版本，如果

2017-11-10 16:48:50 447

转载 Windows平台搭建Kafka源代码开发环境(Eclipse版本)

Windows平台搭建Kafka源代码开发环境(Eclipse版本)原文：https://www.cnblogs.com/huxi2b/p/4364128.html最近在研究Kafka源代码，需要自己搭建一个开发环境。官网上给出的提示略显简单，照着做了一遍也碰到了一些问题。特此记录下来。开发环境： Oracle Java 1.7_u71 + Eclips

2017-11-10 16:37:47 303

原创 Hadoop常见错误之HDFS

Hadoop常见错误之HDFS1，Datanode启动失败错误现象在启动Datanode时， /var/log/hadoop-hdfs/hadoop-cmf-hdfs-DATANODE-hadoopserver06.log.out日志文件中有如下错误：Initialization failed for Block pool (Datanode Uuid una

2017-11-06 13:29:21 708

原创 MR中reduce阶段报错_1

MR在Reduce阶段中拉取数据失败？？Why？

2017-11-03 16:09:56 432

转载 tensorflow错误记录:tf.concat

错误提示：python TypeError: Expected int32, got list containing Tensors of type '_Message' instead.错误原因：tensorflow版本的问题：tensorflow1.0及以后api定义：(数字在后，tensors在前)tf.stack(tensors, axis=

2017-11-03 16:05:52 281

原创 NodeManager异常错误

由于服务器宕机，造成NodeManager很久没有启动服务，当再次启动服务时，出现下面问题：错误1：错误2：

2017-10-26 10:44:29 717

转载 NodeManager启动报错

Nodeemanager异常 org.fusesource.leveldbjni.internal.NativeDB$DBException: Corruption: checksum mismatch系统环境：ubuntu14.04 server cloudera CDH 5.10 共计28个节点。单节点内存128G。有6台机器是24核，22台机器是32核。有10台机器磁

2017-10-26 10:41:41 1385

原创 Windows上安装Tensorflow 以及集成Spark遇到的问题

Windows上安装Tensorflow参考博客： http://blog.csdn.net/u013713117/article/details/54616460第一种安装方式：使用Pip1：安装python3.5.x2：升级 pippython -m pip install --upgrade pip3：安装tenso

2017-10-23 10:01:28 534

转载 MR中Shuffle过程中sort总结

原文： http://blog.csdn.net/u013080251/article/details/60146294写在前面的话：新学期开学想重新复习一下Hadoop的知识，不断更新自己的知识库，在今天晚上阅读的过程中发现，有人已经总结了Mapreduce在shuffle过程中sort的实施。我以前从来都没有深入探究过sort过程应用的算法，以及sort的次数。今天我将其总结一下

2017-10-18 14:02:56 1349

转载自然语言处理（NLP）常用开源工具总结----不定期更新

自然语言处理（NLP）常用开源工具总结----不定期更新http://blog.csdn.net/cuixianpeng/article/details/16288307 学习自然语言这一段时间以来接触和听说了好多开源的自然语言处理工具，在这里做一下汇总方便自己以后学习，其中有自己使用过的也有了解不是很多的，对于不甚了解的工具以后学习熟悉了会做更新的。1.

2017-09-07 16:03:14 394

转载自然语言处理怎么最快入门？

自然语言处理怎么最快入门？作者：微软亚洲研究院链接：https://www.zhihu.com/question/19895141/answer/149475410来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。针对这个问题，我们邀请了微软亚洲研究院首席研究员周明博士为大家解答。<img src="htt

2017-09-07 15:43:49 354

转载 Spark性能优化指南——基础篇

http://mp.weixin.qq.com/s?__biz=MjM5NDMwNjMzNA==&mid=2651805828&idx=1&sn=2f413828d1fdc6a64bdbb25c51508dfc&scene=2&srcid=0519iChOETxAx0OeGoHnm7Xk&from=timeline&isappinstalled=0#rd Spark性能优化指南——基础篇

2017-08-23 15:10:50 273

原创为自己的人生负责

今天，看来一篇文章，很受用，年轻人应该必须知道四个关键词：1：目标和梦想------------你想成为一个什么样的人？？？2：原则-----------如何利用所有的工作和生活，让你成为你想成为的人？？？？如何制定一个原则，让你成长的更快？？？3：学习----------如何通过学习来提升你自己各个方面的能力？？？4：行动---------如何通过行动来提升自己的认知？？？如

2017-08-19 15:32:13 344

转载为自己定的目标

原文URL：http://blog.csdn.net/wangzhiqing3/article/details/12320553对程序员们来说挑战自我非常重要，要么不断创新，要么技术停滞不前。新年伊始，我整理了12个月的目标，每个目标都是对技术或个人能力的挑战，而且可以年复一年循环使用。01. 变得有耐心02. 保持健康03. 拥抱变化带来的不适应04.

2017-08-19 15:25:14 460

转载 Python中模块和包的概念

Python中模块和包的概念Table of Contents1 模块（Module)和包（Package)1.1 命名空间（Namespace)1.2 模块（Module)1.3 包(Package)1 模块（Module)和包（Package)1.1 命名空间（Namespace)由于在Python中一切皆为对象（Obje

2017-08-14 22:21:00 483

转载 Apache Spark 内存管理详解

Apache Spark 内存管理详解Spark 作为一个基于内存的分布式计算引擎，其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理，有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络，抛砖引玉，引出读者对这个话题的深入探讨。本文中阐述的原理基于 Spark 2.1 版本，阅读本文需要读者

2017-08-11 17:47:45 669

转载 HDFS原理解析（总体架构，读写操作流程）

前言HDFS 是一个能够面向大规模数据使用的，可进行扩展的文件存储与传递系统。是一种允许文件通过网络在多台主机上分享的文件系统，可让多机器上的多用户分享文件和存储空间。让实际上是通过网络来访问文件的动作，由程序与用户看来，就像是访问本地的磁盘一般。即使系统中有某些节点脱机，整体来说系统仍然可以持续运作而不会有数据损失。一、HDFS体系结构1、Na

2017-08-11 13:17:27 483

转载 mapreduce出现类似死锁情况

MR-------------Error------------------Reducer preempted to make room for pending map attempts Container killed by the ApplicationMaster. Container killed on request. Exit code is 143 Container e

2017-08-11 09:55:54 3016

转载 Kafka 设计与原理详解

一、Kafka简介本文综合了我之前写的kafka相关文章，可作为一个全面了解学习kafka的培训学习资料。转载请注明出处 : 本文链接1.1 背景历史当今社会各种应用系统诸如商业、社交、搜索、浏览等像信息工厂一样不断的生产出各种信息，在大数据时代，我们面临如下几个挑战：如何收集这些巨大的信息如何分析它如何及时做到如上两点以上几个挑战形成了一个业务需求模

2017-08-10 22:02:23 452

Java GC基本算法1、JVM内存组成结构JVM内存结构由堆、栈、本地方法栈、方法区等部分组成，结构图如下所示：1)堆所有通过new创建的对象的内存都在堆中分配，其大小可以通过-Xmx和-Xms来控制。堆被划分为新生代和旧生代，新生代又被进一步划分为Eden和Survivor区，Survivor由FromSpace和ToSpace组成，结构图如下所示：新生代。新建的对象都是用新生代分配内存，Ed...

2017-08-10 16:16:59 280

原创 NLP学习资料

NLP学习资料http://www.hankcs.com/

2017-08-10 11:41:34 314

原创 Reduce运行到99.99%到100%，最后出现了错误，导致任务失败

Error: java.io.IOException: Failing write. Tried pipeline recovery 5 times without success. at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.processDatanodeError(DFSOutputStream.java:1113) a

2017-08-04 07:56:51 4500 1

转载 JVM堆内存相关的启动参数：年轻代、老年代和永久代的内存分配

如果想观察JVM进程占用的堆内存，可以通过命令工具jmap或者可视化工具jvisualvm.exe。JVM这些启动参数都拥有默认值，如果想了解JVM的内存分配策略，最好手动设置这些启动参数。再通过JDK提供的工具的统计结果，进行对比，就比较容易理解这些内存分配的理论知识。运行环境是win7 32位操作系统，JDK1.7.0_60版本。测试代码和JVM启动参数如下：[java

2017-08-03 16:03:27 446

原创 Hadoop集群磁盘IO 高却一直不下降问题

Hadoop集群磁盘IO非常高问题描述如图：原因很多：1：停止应用程序2：停止服务3：监控linux系统，检测磁盘

2017-08-03 13:18:29 2458 2

转载 Linux下查看进程打开的文件句柄数

Linux下查看进程打开的文件句柄数---查看系统默认的最大文件句柄数，系统默认是1024# ulimit -n1024 ----查看当前进程打开了多少句柄数# lsof -n|awk '{print $2}'|sort|uniq -c|sort -nr|more131 24204　57 24244　　57 24231　　 ........其中第一列

2017-08-03 10:41:07 458

原创 MapReduce运行任务报错

MapReduce运行任务报错如下：Error: java.io.IOException: Failing write. Tried pipeline recovery 5 times without success. at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.processDatanodeError(DF

2017-08-03 10:37:23 4711

转载 Java线程池ThreadPoolExecutor使用和分析

Java线程池ThreadPoolExecutor使用和分析(一)http://www.cnblogs.com/trust-freedom/p/6594270.htmlJava线程池ThreadPoolExecutor使用和分析(二) - execute()原理http://www.cnblogs.com/trust-freedom/p/6681948.html

2017-08-02 13:53:13 257

转载 Linux 下chmod 和 chown 以及 chgrp和用法和区别

1、chgrp(转变文件所属用户组)chgrp 用户组文件名 ###便是这个格了。若是整个目次下的都改，则加-R参数用于递归。如：chgrp -R user smb.conf2、chown(转变文件拥有者)格局： A：chown 用户名文件/目次B：chown 用户名：用户组文件/目次若是整个目次下的都改，则加-R参数用于递

2017-08-02 09:32:00 603

转载查看Spark进程的JVM配置及内存使用

查看Spark进程的JVM配置及内存使用如何查看正在运行的Spark进程的JVM配置以及分代的内存使用情况，是线上运行作业常用的监控手段：1、通过ps命令查询PID[plain] view plain copyps -ef | grep 5661 可以根据命令中的特殊字符来定位pid

2017-08-01 12:02:17 2689

转载聊聊JVM（四）深入理解Major GC, Full GC, CMS

聊聊JVM（四）深入理解Major GC, Full GC, CMS很多人都分不清Major GC, Full GC的概念，事实上我查了下资料，也没有查到非常精确的Major GC和Full GC的概念定义。分不清这两个概念可能就会对这个问题疑惑：Full GC会引起Minor GC吗？经过一系列的查找和对JVM表现的分析，基本可以给Full GC和Major GC下一

2017-07-30 16:35:44 450

转载 Minor GC、Major GC和Full GC之间的区别

Minor GC、Major GC和Full GC之间的区别本文由 ImportNew - 光光头去打酱油翻译自 javacodegeeks。欢迎加入翻译小组。转载请见文末要求。在 Plumbr 从事 GC 暂停检测相关功能的工作时，我被迫用自己的方式，通过大量文章、书籍和演讲来介绍我所做的工作。在整个过程中，经常对 Minor、Major、和 Full GC 事件的

2017-07-30 15:24:31 381

转载 Spark Core Aggregator

Spark Core Aggregator本文要介绍的是Spark Core中的Aggregator这个类。这个类的用处非常大，为什么这么说呢？我们都知道Spark支持传统的MapReduce模型，并基于这种模型提供了比Hadoop更多更高层次的计算接口。比如Spark Core PairRDD中非常常用的：reduceByKey 提供聚合函数，将k-v对集合将相同key

2017-07-29 14:25:59 963

转载 HBase如何合理设置客户端Write Buffer

Hbase客户端API提供了Write Buffer的方式，即批量提交一批Put对象到hbase服务端。本文将结合HBase相关源码，对其进行深入介绍，分析如何在实际项目中合理设置和使用它。什么时候需要Write Buffer？默认情况下，一次Put操作即要与Region Server执行一次RPC操作，其执行过程可以被拆分为以下三个部分：T1：RTT(Round-Trip

2017-07-24 12:45:21 407

转载 Hbase行键过滤器RowFilter

RowFilter是用来对rowkey进行过滤的,比较符如下:OperatorDescriptionLESS小于LESS_OR_EQUAL小于等于EQUAL等于NOT_EQUAL不等于

2017-07-17 12:30:41 552

转载 JVM的堆(heap)、栈(stack)和方法区(method)

JVM主要由类加载器子系统、运行时数据区（内存空间）、执行引擎以及与本地方法接口等组成。其中运行时数据区又由方法区Method Area、堆Heap、Java stack、PC寄存器、本地方法栈组成。堆区:1.存储的全部是对象，每个对象都包含一个与之对应的class的信息。(class的目的是得到操作指令)2.jvm只有堆区(heap)和方法区(下面)被所有线程共享，堆中不

2017-07-08 12:31:09 302

转载实时流计算Spark Streaming原理介绍

实时流计算Spark Streaming原理介绍 1、Spark Streaming简介1.1 概述Spark Streaming 是Spark核心API的一个扩展，可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据，包括Kafk、Flume、Twitter、ZeroMQ、Kinesis 以及TCP sockets，从数据源获取数

2017-07-08 11:32:12 514

转载 SparkSQL的原理以及架构

SparkSQL的原理以及架构1、SparkSQL的发展历程1.1 Hive and SharkSparkSQL的前身是Shark，给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具，Hive应运而生，它是当时唯一运行在Hadoop上的SQL-on-hadoop工具。但是MapReduce计算过程中大量的中间磁盘落地过程消耗了大量的I/O，

2017-07-08 10:44:53 1029

转载 hbase的cache与batch的理解

hbase的cache与batch的理解http://www.cnblogs.com/editice/archive/2013/04/22/3035728.htmlcache：在默认情况下，如果你需要从hbase中查询数据，在获取结果ResultScanner时，hbase会在你每次调用ResultScanner.next（）操作时对返回的

2017-07-05 12:53:21 369

Struts2 + Spring + ibatis

SSH整合分页Demo入门

ajax源代码

EXt 学习API

java面试题

空空如也