genghaihua-CSDN博客

转载 ZooKeeper系列之二:Zookeeper常用命令

ZooKeeper服务命令: 在准备好相应的配置之后，可以直接通过zkServer.sh 这个脚本进行服务的相关操作1. 启动ZK服务: sh bin/zkServer.sh start2. 查看ZK服务状态: sh bin/zkServer.sh status3. 停止ZK服务: sh bin/zkServer.sh stop4. 重启ZK服务:

2015-10-21 10:09:49 631

转载 elasticsearch java API------与集群交互

这是关于elasticsearch java api的第一篇教程，陆续会把es的一些心得写出来。可以通过两种方式来连接到elasticsearch（简称es）集群，第一种是通过在你的程序中创建一个嵌入es节点（Node），使之成为es集群的一部分，然后通过这个节点来与es集群通信。第二种方式是用TransportClient这个接口和es集群通信。Node方式创建嵌入节点的方式如下：

2015-10-12 11:16:15 1289

转载解决hadoop namenode 无法启动

http://blog.csdn.net/hwwzyh/article/details/39312235hadoop集群正常运行，不小心把namenode节点服务器shutdown了，重启服务器后，启动hadoop发现namenode节点无法启动，50070端口无法访问，50030端口正常。这种情况下只好去看namenode日志了，下载日志文件到本地查看在hadoop的

2015-10-10 14:01:12 1487

转载重启docker服务器后遇到 'device or resource busy'错误

http://blog.csdn.net/wangjia184/article/details/43151041 docker 如果有container在运行的时候重启 docker 服务，可能会导致 container无法启动，错误信息类似于Error response from daemon: Cannot start con

2015-10-09 19:44:07 1650

转载 Linux 网桥配置命令：brctl

http://fp-moon.iteye.com/blog/1468650Linux网关模式下将有线LAN和无线LAN共享网段实现局域网内互联:思路其实很简单：就是将虚拟出一个bridge口，将对应的有线LAN和无线LAN都绑定在这个虚拟bridge口上，并给这个bridge口分配一个地址，其他子网微机配置网关为bridge口的地址便可以了。当然，因为是设备是网关模式，路由和nat也是

2015-09-29 09:51:13 676

转载 Spark 1.1.0 Basic Statistics（下）

本文转载于http://blog.selfup.cn/1157.html 程序员的自我修养 – SelfUp.cn ，谢谢分享。Hypothesis testingHypothesis testing，假设检验。Spark目前支持皮尔森卡方检测（Pearson’s chi-squared tests），包括适配度检定和独立性检定。皮尔森卡方检测皮尔森卡方检测

2015-09-23 17:32:35 1044

转载 Jsoup解析Html教程

Jsoup解析Html教程/Java /Jsoup解析Html教程 2014年4月2日飞翔的拖鞋up Java 2条评论分享到：Google+QQ空间QQ好友新浪微博更多Jsoup应该说是最简单快速的Html解析程序了，完善的API以及与JS类似的操作方式，为Java的Html解析带来极大的方便，结合多线程适合做一些网络数据的抓取，本文从一下几个

2015-08-11 20:25:29 923

转载 hadoop序列化机制与java序列化机制对比

1、采用的方法： java序列化机制采用的ObjectOutputStream 对象上调用writeObject() 方法； Hadoop 序列化机制调用对象的write() 方法，带一个DataOutput 类型的参数；2、反序列化过程：两者都是从流中读取数据，java的反序列化过程会不断的创建新的对象；Hadoop反序列化机制不断的复用对象（在Bl

2015-08-07 11:51:49 1047

原创 hadoop 2.0中ChainMapper与ChainReducer的使用

hadoop 2.0中ChainMapper与ChainReducer的使用

2015-07-16 14:00:09 1890

转载 Spark脚本提交/运行/部署

本文转载地址：http://blog.csdn.net/sunbow0/article/details/42099331 尊重版权，谢谢分享1、Spark脚本提交/运行/部署 1.1 spark-shell（交互窗口模式）运行spark-shell需要指向申请资源的standalone spark集群信息，其参数为MASTER，还可以指定execu

2015-07-14 10:39:02 5287

转载 Hadoop的Text类getBytes字节数据put到HBase后有多余字符串问题

本文转载于博客：http://blackwing.iteye.com/blog/1978501转载请注明原博主博客地址转载请标明出处：http://blackwing.iteye.com/blog/1978501 org.apache.hadoop.io.Text里面的getBytes方法有个小坑。先看现场： String s = "91223224-2013112

2015-07-03 14:19:22 905

原创 eclispe生成javadoc

1 export 选择javadoc2 设置javadoc command 例如C:\Program Files\Java\jdk1.7.0_67\bin\javadoc.exe，其他默认3 next4 next，在Extra Javadoc Options中设置-encoding UTF-8-charset UTF-85 finish

2015-07-02 11:16:56 433

转载 java序列化

package com.test.serializable;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.IOException;import java.io.ObjectInputStream;import com.test.Serial;public cla

2015-06-10 11:08:09 411

转载 RMI客户端调用

RMI远程对象方法调用，定位到远程对象进行接口转换即可进行方法调用，三步完成。1、根据ip、端口和注册对象名查找远程对象，以下三种方法均可：1）LocateRegistry.getRegistry(ip,port).lookup(name)；2）Naming.lookup("rmi://ip:port/name")；3）new InitialContext(environment)

2015-04-10 14:22:10 1331

转载 ClassLoader 详解及用途(写的不错)

ClassLoader主要对类的请求提供服务，当JVM需要某类时，它根据名称向ClassLoader要求这个类，然后由ClassLoader返回这个类的class对象。 1.1 几个相关概念ClassLoader负责载入系统的所有Resources（Class，文件，来自网络的字节流等），通过ClassLoader从而将资源载入JVM 每个class都有一个reference，指向自己的Cl

2015-03-29 21:11:49 864

原创 Eclipse 4.4(luna) 安装fatjar插件时报错的问题

An error occurred while installing the itemssession context was:(profile=epp.package.jee, phase=org.eclipse.equinox.internal.p2.engine.phases.Install, operand=null --> [R]net.sf.fjep.fatjar 0.0.31, a

2015-03-29 13:38:25 6249 6

转载最小二乘法多项式曲线拟合原理与实现

概念最小二乘法多项式曲线拟合，根据给定的m个点,并不要求这条曲线精确地经过这些点，而是曲线y=f(x)的近似曲线y= φ(x)。原理[原理部分由个人根据互联网上的资料进行总结，希望对大家能有用] 给定数据点pi(xi,yi)，其中i=1,2,…,m。求近似曲线y= φ(x)。并且使得近似曲线与y=f(x)的偏差最小。近似曲线在点pi处的偏

2015-03-24 11:28:15 2984

转载 iconv

字符编码转换工具iconv -f from-encoding -t to-encoding inputfileiconv -f utf8 -t gb2312 a.txt>test.txt

2015-03-18 13:08:43 420

转载 numpy在centos下的安装

安装相关工具。[root@localhostmyhaspl]# yum install wget[root@localhostmyhaspl]# yum install unzip[root@localhostmyhaspl]# yum install gcc[root@localhostnumpy-1.9.0]# yum install python-devel

2015-03-16 14:31:38 11861 1

原创 linux自动清理工具

常用的可能定时删除临时目录的工具为crontab、redhat的tmpwatch、ubuntu的tmpreaper等等

2015-03-05 10:05:15 647

转载 Linux命令之非交互SSH密码验证-sshpass

ssh登陆不能在命令行中指定密码。sshpass的出现，解决了这一问题。sshpass用于非交互SSH的密码验证，一般用在sh脚本中，无须再次输入密码。它允许你用 -p 参数指定明文密码，然后直接登录远程服务器，它支持密码从命令行、文件、环境变量中读取。其默认没有安装，需要手动安装，方法如下：sshpass下载地址：http://sourceforge.net/p

2015-02-27 11:26:45 558

转载 iproute介绍

====== iproute介绍 ======iproute是用于linux下网络配置工具，该工具包含下面工具组件，分别为： ip 网络配置命令 tc 用来进行流量控制的命令（traffic control） rtacct 查看数据包流量状态的命令 ifcfg 网络地址配置管理 rtstat 路由状态查看工具 nstat 显示网络统计信息 ss

2015-02-27 11:25:48 2257

转载在节点之间导出和导入 DOCKER 镜像

http://www.tuicool.com/articles/emYVRzv注：本文由JAMES.COYLE在 2014-6-16 编写，原文地址为 EXPORT AND IMPORT A DOCKER IMAGE BETWEEN NODESDocker 背后的驱动力之一就是通过所有的 Docker 使服务器能创建一个一致的环境，并且能创建一个能运行在任何 Do

2015-02-27 11:16:20 502

转载 CentOS 修改源为163和指定epel源和Docker安装

CentOS 修改源为163和指定epel源和Docker安装地址：http://mirrors.163.com/.help/centos.html使用说明首先备份/etc/yum.repos.d/CentOS-Base.repomv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.rep

2015-02-27 11:14:09 2394

转载 How To Install Docker On Ubuntu 13.04 x64 VPS

IntroductionIn case you're not familiar with Docker, here is the summary of it and its functionality:Docker is an open-source engine which automates the deployment of applications as highly po

2015-02-27 11:06:28 853

原创 infobright数据库创建表

CREATE TABLE `tttt` ( `id` bigint(20) NOT NULL , `name` varchar(20) NOT NULL, `age` int(3) NOT NULL) ENGINE=BRIGHTHOUSE DEFAULT CHARSET=utf8;load data infile '/tmp/info.txt' ignore into ta...

2015-02-11 11:36:49 1376

转载 infobright安装（RPM包，二进制，源码编译）、升级及配置

一、RPM安装1.下载2.root权限用户安装rpm -ivh infobright-version.rpm –prefix=/usr/local装完后在目标目录下会有两个新文件夹，infobright-version-86_x64和其链接infobright3.启动infobright：/etc/init.d/mysqld-ib start4.任意路径下运行mysql-ib...

2015-02-10 11:32:29 1125

转载面向列的mysql数据库引擎－BRIGHTHOUSE(infobright数据库)

brighthouse 是infobright 数据库的关键引擎。infobright 数据库是基于mysql的，它的设计主要是用于大规模的数据仓库和分析优化。可以去www.infobright.org下载开源社区版。它的安装非常简单：解开了下载的gz包后，直接运行install-infobright.sh就ok了，在redhat5下安装基本没有遇到任何麻烦。

2015-02-10 11:12:23 1201

转载 infobright中导入数据避免特殊字符问题

目前在用的是社区版的infobright，不支持DML功能，只能用LOAD DATA方式导入数据。如果元数据中有特殊控制字符，导入过程中经常会报错，很是恼火。应对策略有两种方法：设置Reject File导入之前，设定 @BH_REJECT_FILE_PATH 和 @BH_ABORT_ON_COUNT 就可以忽略多少条导入失败的记录，并且将这些记录保存在指定文件/*

2015-02-10 10:58:54 896

转载 hive左半连接

执行以下语句，左半连接用来代替in操作或者exists操作的select * from user left semi join job on user.id=job.user_id;结果如下该语句相当于如下语句select * from user where id in (select user_id from job);但是，h

2015-02-09 09:44:09 3280

原创 java路径的读取

读取java项目文件如src文件下有一个a.txt文件，那么路径为"src/a.txt"。注意为“/”读取磁盘路径上的文件如"G:\\1.txt"

2015-02-04 11:48:03 561

转载 Hive UDAF开发

Hive进行UDAF开发，相对要比UDF复杂一些，不过也不是很难。请看一个例子package org.hrj.hive.udf;import org.apache.hadoop.hive.ql.exec.UDAFEvaluator;import org.apache.hadoop.hive.serde2.io.DoubleWritable; public

2015-02-04 11:25:59 987 1

转载 Hive UDF开发

Hive进行UDF开发十分简单，此处所说UDF为Temporary的function，所以需要hive版本在0.4.0以上才可以。Hive的UDF开发只需要重构UDF类的evaluate函数即可。例：package com.hrj.hive.udf;import org.apache.hadoop.hive.ql.exec.UDF;public class hell

2015-02-04 11:25:15 567

转载 Linux中变量$#,$@,$0,$1,$2,$*,$$,$?的含义

我们先写一个简单的脚本，执行以后再解释各个变量的意义 # touch variable# vi variable 脚本内容如下： #!/bin/shecho "number:$#"echo "scname:$0"echo "first :$1"echo "second:$2"echo "argume:$@"echo "show parm li

2015-02-03 13:18:21 416

转载如何调优JVM - 优化Java虚拟机（大全+实例）

堆设置-Xmx3550m：设置JVM最大堆内存为3550M。 -Xms3550m：设置JVM初始堆内存为3550M。此值可以设置与-Xmx相同，以避免每次垃圾回收完成后JVM重新分配内存。 -Xss128k：设置每个线程的栈大小。JDK5.0以后每个线程栈大小为1M，之前每个线程栈大小为256K。应当根据应用的线程所需内存大小进行调整。在相同物理内存下，减小这个值能生成更多的

2015-02-03 09:45:42 460

转载 context.progress()的作用

假设在map()方法中，你有一个从数据库读取大量数据的操作，是用一个循环来完成的，并且，在读完全部的数据之前，你不会有任何的数据输出（纯读），那么，读完全部数据所需的时间可能很长，一直没有输出的话，这个task就会因为超时被杀掉，为了避免这个问题，可在以读取数据的循环中使用context.progress()方法来报告进度，那么该task就会被认为还活着，从而解决超时问题。

2015-02-02 14:48:09 1630

转载 JAVA CP命令

java -cp .;c:\dir1\lib.jar Test -cp 和 -classpath 一样，是指定类运行所依赖其他类的路径，通常是类库，jar包之类，需要全路径到jar包，window上分号“;” 分隔，linux上是分号“:”分隔。不支持通配符，需要列出所有jar包，用一点“.”代表当前路径。虽然现在都有eclipse之类的IDE了，但有时候后会手

2015-02-02 12:10:20 1123

原创 java读取URL指定的网页内容

URL url = new URL("http://www.gov.cn/guowuyuan/2015-01/30/content_2812665.htm"); //打开到此 URL 的连接并返回一个用于从该连接读入的 InputStream。 Reader reader=new InputStreamReader(new BufferedInp

2015-02-01 13:33:13 2508

转载 linux grep命令详解

简介grep (global search regular expression(RE) and print out the line,全面搜索正则表达式并把行打印出来)是一种强大的文本搜索工具，它能使用正则表达式搜索文本，并把匹配的行打印出来。Unix的grep家族包括grep、egrep和fgrep。egrep和fgrep的命令只跟grep有很小不同。egrep是grep的扩展

2015-01-31 19:48:22 364

转载 linux sed命令详解

简介sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾。文件内容并没有改变，除非你使用重定向存储输出。Sed主要用来自动编辑一个或多个文件；简化对文件的反复操作；编写转换程序等。

2015-01-31 15:30:28 433

美团-机器学习-实践_最新AI算法实践真知人工智能技术正以一种超快的速度深刻地改变着我们的生活，引导了第四次工业革命。美团作为国内O2O领域领先的服务平台，结合自身的业务场景和数据，积极进行了人工智能领域的应用探索。在美团的搜索、推荐、计算广告、风控、图像处理等领域，相关的人工智能技术得到广泛的应用。本书包括通用流程、数据挖掘、搜索和推荐、计算广告、深度学习以及算法工程6大部分内容，全面介绍了美团在多个重要方面对机器学习的应用。本书非常适合有一定机器学习基础的工程技术人员和在校大学生学习和阅读。通过本书，有经验的算法工程师可以了解美团在这方面的做法，在校大学生可以学习机器学习算法如何在具体的业务场景中落地。

2018-11-22

elasticsearch-the-definitive-guide-cn

elasticsearch-the-definitive-guide-cn Elasticsearch权威指南(中文版)

2018-08-22

hive调优总结文档-hive tuning ppt

hive调优总结，网络上分享的hive常见优化细节，join、shuffle优化等等。很不错

2018-08-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人