自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(45)
  • 资源 (11)
  • 收藏
  • 关注

转载 上传非结构化数据到HBase

import java.util.List;import java.io.File;import java.io.FileInputStream;import java.io.IOException;import java.io.InputStream;import java.nio.ByteBuffer;import java.util.ArrayList;imp

2017-07-27 15:24:53 768

原创 kylin和superset整合

版本信息kylin版本1.6,supersert版本0.18.5supersert不支持直接使用kylin的数据,有人写了pykylin来完成他们的连接,所以先要安装pykylin1、安装superset,kylin,这部分有其他的文章有信息讲2、安装pykylin,  https://github.com/wxiang7/pykylin    git下载源码

2017-07-21 12:05:54 3135

转载 mysql-maxwell binlog订阅

原文地址:http://maxwells-daemon.io/quickstart/测试经过和结果:1、mysql安装略过2、配置mysql,并开启bin_log# vi /etc/my.cnf[mysqld]server-id=1log-bin=masterbinlog_format=row**需要重

2017-03-24 10:27:20 3250 2

原创 kerberos安装

kerberos安装:http://www.cnblogs.com/xiaodf/p/5968178.html1.配置hosts2.选择一台机器安装kdcyum install krb5-server krb5-libs krb5-auth-dialog3.配置kdc.conf[kdcdefaults]kdc_ports = 88kd

2017-03-16 15:30:54 1500

原创 superset 安装部署

源码部署  http://airbnb.io/superset/installation.html安装Python环境依赖sudo yum upgrade python-setuptoolssudo yum install gcc libffi-devel python-devel python-pip python-wheel openssl-devel libsas

2017-01-20 09:39:04 5740 1

原创 hadoop复制因子 单独设置

1、 Hadoop 可以通过 dfs.replication来设置 复制因子数量2、可以再上传文件的同时指定创建的副本数hadoop dfs -D dfs.replication=1 -put  1.txt   /tmp/3、可以通过命令来更改已经上传的文件的副本数: hadoop fs -setrep -R 1  /tmp  ,把/tmp目录下的文件复制因子设置成1个4、关于

2016-12-09 10:12:55 2739

原创 hue sentry界面配置步骤

一、sentry CDH配置1、hive的配置绕过 Sentry 授权用户sentry.metastore.service.users      要修改元数据表的用户要配置到这个里面,如下面的biadmin2、impala配置二、 Sentry授权1、在l

2016-11-11 14:13:36 3701

原创 kafka low levle实例

package com.ymm.KafkaConsumLog;import kafka.api.FetchRequest;import kafka.api.FetchRequestBuilder;import kafka.api.PartitionOffsetRequestInfo;import kafka.common.ErrorMapping;import kafk

2016-09-30 17:29:29 437

原创 SVM实例

import org.apache.spark.SparkContextimport org.apache.spark.mllib.classification.SVMWithSGDimport org.apache.spark.mllib.regression.LabeledPointimport org.apache.spark.mllib.linalg.Vectorsval

2016-09-08 16:31:32 620

转载 hbase命令 写数据到hbase表

hbase org.apache.hadoop.hbase.mapreduce.ImportTsv  -Dimporttsv.separator=$(echo -e '\t') -Dimporttsv.columns=HBASE_ROW_KEY,sf:docket,sf:courtname,sf:personnamelist,sf:companyname LengJingSearchSF /use

2016-08-30 18:29:45 625

原创 CDH key value index lily安装配置

Key-Value Store Indexer这个组件非常关键,是Hbase到Solr生成索引的中间工具。Lily HBase Indexer是一款灵活的、可扩展的、高容错的、事务性的,并且近实时的处理HBase列索引数据的分布式服务软件。它是NGDATA公司开发的Lily系统的一部分,已开放源代码。Lily HBase Indexer使用SolrCloud来存储HBase

2016-08-05 16:00:52 2041

原创 Hadoop集群磁盘数据迁移

背景由于历史原因,CDH的hadoop的每个datanode节点有3个数据磁盘,每个磁盘的大小不一样data 500Gdata1 2Tdata2 2T由于阿里云的根目录很小,只有20G,所以MR的中间文件,日志等只能跟数据盘共用。然后,Hadoop在写入数据的时候,会先写满一个磁盘再写其他磁盘,这样某个磁盘满了,就不能在写入日志和中间文件,导致无法进行MR,

2016-07-14 17:06:20 3483

原创 yarn node manager启动失败

/data/lib/hadoop-yarnmv yarn-nm-recovery /tmp/20160225bak   Application application_1456459092764_0002 failed 2 times due to AM Container for appattempt_1456459092764_0002_000002 e

2016-07-14 17:02:10 1992

原创 sqoop常见问题

sqoop导入mysql的tinyInt(1)字段,会自动转化成boolean。解决办法是在jdbc连接中加上tinyInt1isBit=falsesqoop导入parquet全量数据时,spark sql 无法识别

2016-07-14 17:01:31 531

原创 Spark SQL的常见问题

问题:spark sql执行生成的数据文件为大量的小文件。原因:spark sql目前版本不支持小文件的合并。临时解决方案:spark sq生成数据后,使用hive进行select 和 insert overwrite操作。

2016-07-14 16:58:54 990

原创 HiveServer2的常见问题

在使用hiveserver2查询时(比如HUE,或者beeline连10000端口),会遇到这样的问题,where语句后如果使用了between,则between的两个值必须不一样,否则在hiveserver2中是查不出数据的,如果值一样的时候,直接用“=”。例如: where date between 20160425 and 20160425 (hiveserver2 not OK,

2016-07-14 16:56:01 2308

原创 CDH问题汇总

问题1:在主节点初始化 CM5的数据库报错:ld-linux.so.2   bad ELF interpreter解决:安装 glibc 和 glibc.i686 问题2:报错:ProtocolError: 解决:$> ps -ef | grep supervisord$> kill -9 /opt/cm-5.6.0/etc/init.d/cloudera-sc

2016-07-14 16:54:39 1633

原创 kafka常见问题

1、java消费者不能消费数据--------版本不匹配问题       工程代码引用的kafka jar包的版本,要与线上安装包的版本一致。否则会出现消费者消费不到数据的问题

2016-07-14 16:52:40 684

原创 Impala问题汇总

1、时区问题:默认impala配置不是中国的时区,所以在用from_unixtime的时候,有误差。解决方案:impala启动时加  -use_local_tz_for_unix_timestamp_conversions=true在cdh里面,impala->配置->mpala Daemo  ->Impala Daemon 命令行参数高级配置代码段(安全阀)   加  -us

2016-07-14 16:51:52 4030 1

原创 sentry配置

官方文档:http://www.cloudera.com/documentation/enterprise/5-4-x/topics/sg_policy_cm_config.html#concept_nt1_c1z_zp_unique_11.开启testing.mode(否则需要先配好Kerberos )cm中hive的配置->sentry-site.xml添加 :sentry

2016-07-04 15:55:56 1848

原创 scala 执行 hive,hadoop,mysql等命令

import java.sql.{DriverManager, Connection, ResultSet}import scala.sys.process.Processobject Test2 { def main(args: Array[String]) { print(execute()) } def execute(): Int = { var seq=Seq("

2016-07-04 15:49:17 1606

原创 spark安装文档

1.安装JDK一定要安装1.7以上版本,在master,slave上都要安装2.安装scala 2.11.7 3.安装spark下载预编译版本spark-1.4.1-bin-hadoop2.6 4.配置文件 spark-env.sh文件:############export SCALA_HOME=/usr/lib/sc

2016-05-09 10:13:31 373

原创 CDH安装配置LDAP

安装OpenLDAP安装机器:slave-041 安装openldapyum install -y openldap openldap-servers openldap-clients2 修改配置文件 cp /usr/share/openldap-servers/slapd.conf.obsolete /etc/openldap/slapd.conf cp

2016-05-09 10:09:51 2910 1

原创 阿里调度系统zeus 安装使用

注意:原始代码只支持centos6操作系统, 如果是centos7操作系统,需修改MemUseRateJob类的 run() 方法1、安装jdk1.7 注意,zeus不支持jdk1.82、在部署服务器安装dos2unix 命令 yum install dos2unix3、安装tomcat,我用的是tomcat74、在worker机器上添加biadmin用户修...

2016-05-09 10:02:08 10849 4

转载 ganglia安装

一、监控节点需要安装的软件:GangliaGanglia-webPhpApache二 、被监控节点需要安装的软件:Ganglia三、下载软件ganglia-3.6.0.tar.gz http://jaist.dl.sourceforge.net/project/ganglia/ganglia%20monitoring%20core/3.6.0/gangl

2016-03-03 10:21:20 515

原创 kafka监控Kafka Offset Monitor

1、下载kafka-offset-console jar包  https://github.com/quantifind/KafkaOffsetMonitor2、建 vi  mobile_start_en.sh#!/bin/bashjava -cp KafkaOffsetMonitor-assembly-0.2.0.jar com.quantifind.kafka.of

2016-03-03 10:20:28 1221

转载 CDH安装文档

参考文档:http://www.cloudera.com/content/www/en-us/documentation/enterprise/latest/topics/cm_ig_install_path_b.html#concept_qwc_xcc_yr_unique_11、卸载openjdk先查看 rpm -qa | grep java显示如下信息:java-1.4.2-g

2016-02-17 14:25:46 411

原创 kafka监控

一、linux手动安装sbt过程1、下载sbt通用平台压缩包http://www.scala-sbt.org/download.html2、解压文件tar zxvf sbt-0.13.5.tgz -C /opt/scala/3、建立启动sbt的脚本文件cd /opt/scala/sbt/vim sbt在sbt文本文件中添加 BT_OPTS="-Xms51

2016-02-16 15:08:30 537

原创 Storm搭建

1、前期准备# yum install libtool# yum install gcc# yum install gcc-c++# yum install makeyum install uuid-devel# yum install libuuid-devel2、安装zeromq 2.1.4http://download.zeromq.org/tar

2016-02-01 16:42:24 277

原创 mongdb java 实例

1、pox.xml org.mongodb mongo-java-driver 3.2.0 2、java代码public class TestMongo { public static void main(String[] args) { MongoClientURI uri = new MongoClie

2016-01-18 17:07:38 450

转载 canal部署与实例运行

1、安装包下载 https://github.com/alibaba/canal/releases2、部署canal-server(1)开启mysql的binlog功能,并配置binlog模式为row。在my.cnf 加入如下:log-bin=mysql-bin #添加这一行就ok binlog-format=ROW #选择row模式 server_id=1 #

2016-01-18 17:02:39 4280

原创 eclipse scala工程

eclipse版本4.4,scala版本2.11help->install new software 安装。add 输入网址:http://download.scala-ide.org/sdk/lithium/e44/scala211/stable/site

2015-09-29 10:46:50 429

转载 apache中国镜像

http://mirrors.cnnic.cn/apache/

2015-09-22 14:56:51 980

转载 kafka+storm整合 java示例

一、flume和kafka整合请参照 http://blog.csdn.net/huguoping830623/article/details/48138319二、示例package com.hgp.kafka.kafka;import java.util.Arrays;import java.util.HashMap;import java.util.Iterator;

2015-09-18 11:56:56 10129 1

原创 flume读取日志数据写入kafka

一、flume配置flume要求1.6以上版本flume-conf.properties文件配置内容,sinks的输出作为kafka的producta1.sources = r1a1.sinks = k1a1.channels = c1# Describe/configure the sourcea1.sources.r1.type = execa1.sources.r

2015-08-31 19:13:38 11175 1

原创 hive远程debug

1、编译hive的源代码(mvn eclipse:eclipse),把编译后的工程导入eclipse2、启动hive,命令hive --debug 。[root@hadoop2 ~]# hive --debugListening for transport dt_socket at address: 80003、在eclipse里面,打开Debug Configurations

2015-08-19 18:10:58 1072

转载 相似度算法

1、欧几里得距离2、皮尔逊相关系数3、基于夹角余弦计算相似度4、基于Tanimoto系数计算相似度5、近邻相似度算法1)固定数量的邻居:K-neighborhoods2)基于相似度门槛的邻居:Threshold-based neighborhoods

2015-05-25 10:09:39 634

原创 hadoop源码远程debug

1、$HADOOP_HOME/etc/hadoop/hadoop-env.sh文件的最后添加你想debug的进程#远程调试namenodeexport HADOOP_NAMENODE_OPTS="-agentlib:jdwp=transport=dt_socket,address=8888,server=y,suspend=y"#远程调试datanodeexport

2015-05-04 18:15:59 732

转载 protobuf-2.5.0.tar.gz的下载与安装

1.下载    hadoop使用protocol buffer进行通信,需要下载和安装 protobuf-2.5.0.tar.gz。由于 现在 protobuf-2.5.0.tar.gz已经无法在官网 https://code.google.com/p/protobuf/downloads/list中 下载了,本人将 protobuf-2.5.0.tar.gz上传到百度云盘供大家下载,地址

2015-05-04 16:29:46 31101 7

原创 hive 自定义UDF,hive编译

要自定一个hive的函数,步骤如下1、写一个java类 要继承org.apache.hadoop.hive.ql.exec.UDF类实现evaluate     下面是一个替换字符串的函数,因为函数以后实在hadoop上运行,所以数据类型是hadoop的数据类型引入的jar包:hive的所有jar 和 hadoop的hadoop-common-2.5.2.jar package h

2015-04-30 11:43:43 851

百度地图MarkerClusterer卡顿问题

亲测好用的百度地图海量marker性能优化,把百度地图的MarkerClusterer.js,替换成我提供的js,其他代码原样不动。 我也提供了一个实例,可以直接使用

2018-08-06

自动登录开心网,并给好友发信息

java模拟登陆开心网,给好友发送消息,获取消息条数,commons-httpclient-3.1.jar,commons-codec-1.3,jar 完全用java代码虚拟登陆开心网,可用给好友群发消息,获取消息条数等等,里面已经包含说需要的jar文件。 你可以通过登录开心网的学习登陆其他的网站…… 经测试,修改相关参数在校内网有效

2013-01-25

qq客服源代码

用js实现的qq客服悬浮窗口,把js直接应用到html中就能用。

2011-09-30

漂亮的qq悬浮窗代码

简单漂亮的qq悬浮窗代码,用js实现的,代码很简单,可以自己扩充

2011-08-12

heritrix下载及配置

详细的说明heritrix下载及配置,图形加文字说明,一看就会

2011-08-12

AU3中文帮助文档,AU3中文帮助文档.chm

AU3中文帮助文档 AU3中文帮助文档 AU3中文帮助文档

2011-07-25

Java聊天程序JBuilder.rar

Java聊天程序 使用JBuilder编写的

2009-03-18

系统分析师考试重点和难点分析全攻略.pdf

系统分析师考试重点和难点分析全攻略,帮助你全面的复习,轻松过系分

2009-03-18

系统分析师考前指导讲座.pdf

系统分析师考前指导讲座 教你在考前怎样复习.以更好的应付考试

2009-03-18

1996-2006年系统分析师历年试题及答案word版.rar

1996-2006年系统分析师历年试题及答案word版.rar

2009-03-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除