自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(111)
  • 收藏
  • 关注

原创 linux下设置ssh无密码登录

ssh配置  主机A:10.0.5.199主机B:10.0.5.198 需要配置主机A无密码登录主机A,主机B先确保所有主机的防火墙处于关闭状态。在主机A上执行如下: 1. $cd ~/.ssh 2. $ssh-keygen -t rsa  --------------------然后一直按回车键,就会按照默认的选项将生成的密钥保存在.ssh/id_rs...

2012-11-06 16:35:54 177

原创 用Sqoop把数据从HDFS导入到MYSQL

转自:http://www.kaifajie.cn/mySQL/6263.html sqoop是一个能把数据在关系型数据库和HDFS之间互相传输的工具。在这里,我写一下用java程序来实现sqoop把数据从HDFS写入到MYSQL。 在接触sqoop之前,我自己写了一个传输类来实现数据从HDFS到MYSQL。这里简单说一下时间的思想: 1、在MYSQL中创建一个参数表A,用来记...

2012-10-27 23:30:09 390 1

原创 Solr 4.0: Realtime GET

he next functionality I decided to look at, from the upcoming Solr 4.0, is the so called “Realtime Get”. It allows you to see the data even though it was not yet added to the index, thus before the co...

2012-09-15 14:54:51 205

原创 大数据的储存:百度HDFS集群的数据压缩

2012年4月13日,由IT168(ITPUB、IXPUB、ChinaUnix)主办的2012中国数据库技术大会(DTCC)在北京隆重召开。大会第三天,百度基础架构部高级工程师孙桂林发表了主题为“百度HDFS集群的数据压缩”的演讲。  当前,数字信息急剧膨胀。根据IDC的研究结果,2011年创造的信息数量达到1800EB,每年产生的数字信息量还在以60%的速度高速增长,到2020年,全球每年产...

2012-08-30 17:48:04 214

原创 用sqoop进行mysql和hdfs系统间的数据互导

转自:http://abloz.com/2012/07/19/data-between-the-mysql-and-hdfs-system-of-mutual-conductance-using-sqoop.html sqoop 是apache下用于RDBMS和HDFS互相导数据的工具。本文档是sqoop的使用实例,实现从mysql到hdfs互导数据,以及从Mysql导数据到HBa...

2012-07-31 16:32:18 242

原创 从hive将数据导出到mysql

转自:http://abloz.com/2012/07/20/export-data-to-mysql-from-the-hive.html http://abloz.com2012.7.20author:周海汉 在上一篇文章《》中,提到sqoop可以让RDBMS和HDFS之间互导数据,并且也支持从mysql中导入到HBase,但从HBase直接导入mysql则不是直接支持...

2012-07-31 16:31:08 514

原创 mysql的distinct用法-mysql中如何筛选出非重复的数据

使用mysql时,有时需要查询出某个字段不重复的记录,虽然mysql提供有distinct这个关键字来过滤掉多余的重复记录只保留一条,但往往只用它来返回不重复记录的条数,而不是用它来返回不重记录的所有值。其原因是distinct只能返回它的目标字段,而无法返回其它字段下面先来看看例子:   table   id name   1 a   2 b   3 c   ...

2012-07-31 16:03:16 274

原创 Hive SQL

转自:http://www.tbdata.org/archives/581Hive 的官方文档中对查询语言有了很详细的描述,请参考:http://wiki.apache.org/hadoop/Hive/LanguageManual ,本文的内容大部分翻译自该页面,期间加入了一些在使用过程中需要注意到的事项。Create TableCREATE [EXTERNAL] TABLE [I...

2012-07-19 13:49:50 99

原创 Hive优化总结

优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。 长期观察hadoop处理数据的过程,有几个显著的特征:1.不怕数据多,就怕数据倾斜。2.对jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,没半小时...

2012-07-09 15:18:41 108

原创 Redis命令总结

Redis提供了丰富的命令(command)对数据库和各种数据类型进行操作,这些command可以在Linux终端使用。在编程时,比如使用Redis 的Java语言包,这些命令都有对应的方法,比如上面例子中使用的sadd方法,就是对集合操作中的SADD命令。下面将Redis提供的命令做一总结。连接操作相关的命令Ÿ   quit:关闭连接(connection)Ÿ   auth:简单密码...

2012-07-06 18:08:46 108

原创 Linux服务介绍一,关闭你不需要的服务

转自:http://blog.cnr.cn/18/viewspace-8092.html 服务列表(按字母顺序排列)服务名必需(是/否)用途描述注解acon否语言支持特别支持左手书写语言:阿拉伯语,波斯语和希伯莱语acpi否电源管理手提电脑电池电扇监控器acpid否监听精灵进程此进程监听并分配内核中...

2012-06-19 14:43:54 434

原创 hadoop/mapred 优化方法

 从三个方面着手优化 :1. hadoop配置2. 设计mapred/job3. 代码级别.4. 改造hadoop一. conf/hadoop-site.xml配置.经验要求高, 特别需要结合实际情况.典型参数如复制因子,mapred.child.java.opts,mapred.tasktracker.map.tasks.maximum,m...

2012-06-12 11:47:59 168

原创 hadoop集群dfs.data.dir目录权限问题导致节点无法启动

 安装使用Hive的时候发现文件无法从本地拷贝到hadoop集群系统,老是报错,错误内容为:java.io.IOException: File  … could only be replicated to 0 nodes, instead of 1。查找namenode的日志,也是报这个错,而且非常多,即便在启动的时候也是报类似的错误。这个学习环境为单namenode+2个datano...

2012-06-11 18:32:39 799

原创 hadoop中的balancer

对于HDFS集群,经常长时间的运行,尤其是大量的delete操作后,集群中各个Datanode上的空间使用率可能会存在比较大的差异。所以需要一种机制使各个Datanode保持平衡,防止少数Datanode存储过多的文件。少数使用率过高的Datanode会导致对其的数据访问效率变低,并且如果该Datanode挂掉,需要更多的时间进行恢复,对集群也会造成更大的影响。Hadoop中已经提供了...

2012-06-11 15:49:23 192

原创 设置CXF的WebService客户端超时时长

背景:  在使用WebService的时候,我们可能需要一个备份的WebService服务器.一旦主服务器down了,我们可以使用备份的服务器.那么这里就需要对客服端连接服务器的时间做一个修改.  在Spring+CXF的WebService环境下,客户端有两个时间属性是可配置的,分别是ConnectionTimeout和ReceiveTimeout.  ConnectionTimeo...

2012-06-11 11:20:54 153

原创 Hadoop集群上使用Lzo压缩

转自:http://www.tech126.com/hadoop-lzo/自从Hadoop集群搭建以来,我们一直使用的是Gzip进行压缩当时,我对gzip压缩过的文件和原始的log文件分别跑MapReduce测试,最终执行速度基本差不多而且Hadoop原生支持Gzip解压,所以,当时就直接采用了Gzip压缩的方式关于Lzo压缩,twitter有一篇文章,介绍的比较详细,见这里:...

2012-05-28 11:03:20 95

原创 使用Hive读取Hbase中的数据

转自:http://www.4ucode.com/Study/Topic/1925466  第一步,启动hadoop,命令:./start-all.sh第二步,启动hive,命令:./hive --auxpath /home/dream-victor/hive-0.6.0/lib/hive_hbase-handler.jar,/home/dream-victor/hive-0....

2012-05-23 13:12:47 108

原创 [转]github常用指令

总结一下ubuntu下github常用的命令,设置部分跳过,假设repository的名字叫hello-world:1.创建一个新的repository:先在github上创建并写好相关名字,描述。$cd ~/hello-world //到hello-world目录$git init //初始化$git add . //把所有文件加入到索引(不想把所有文件加入,可以用gitignore或add...

2012-05-16 14:49:30 130

原创 在XP系统下配置eclipse集成hadoop开发

一、目的:由于hadoop只能在Linux环境下运行,所以对于在windwos系统下使用IDE工作的开发人员来说,调试是件麻烦的工作,所以我们今天要配置的Hadoop开发环境是在Windows XP系统下,并集成eclipse使开发人员在做hadoop开发时更容易调试。二、本人配置的版本信息:windows XP系统,jdk1.6.0_05,eclipse-jee-indigo-win32 Rel...

2012-05-05 11:09:17 108

原创 使用Hive读取Hbase中的数据

转自:http://www.4ucode.com/Study/Topic/1925466 第一步,启动hadoop,命令:./start-all.sh第二步,启动hive,命令:./hive --auxpath /home/dream-victor/hive-0.6.0/lib/hive_hbase-handler.jar,/home/dream-victor/hive-0.6.0...

2012-04-18 14:24:54 150

原创 Web日志分析方法概述 让复杂的数据挖掘变得简单可行

志在计算机系统中是一个非常广泛的概念,任何程序都有可能输出日志:操作系统内核、各种应用服务器等等。日志的内容、规模和用途也各不相同,很难一概而论。本文讨论的日志处理方法中的日志,仅指Web日志。其实并没有精确的定义,可能包括但不限于各种前端Web服务器——apache、lighttpd、tomcat等产生的用户访问日志,以及各种Web应用程序自己输出的日志。在Web日志中,每条日志通常代表...

2012-04-13 16:31:37 148

原创 应用sqoop将MySQL数据库中的数据导入Hbase

转自:http://www.bwxxkj.com/a/jishuzhongxin/xingyeyingyong/2012/0327/88943.html 前提:安装好 sqoop、hbase。教材气的人,他们彼此建树友情,是很是轻易的;要他破损已有的友情,倒是一件难事。正如黄金的器皿一样,是不轻易破裂的;假如破损了,要修补它,使它恢答复复兴状,倒是最轻易的事。下载jbdc驱动:mysq...

2012-04-12 11:31:21 148

原创 linux分割大文件(tar + split) 使用分卷打包

在Linux下使用 tar 命令来将文件打包并压缩是很通常的用法了。可是Linux的文件系统对文件大小有限制,也就是说一个文件最大不能超过2G,如果压缩包的的内容很大,最后的结果就会超过2G,那么该怎么办呢?又或者压缩包希望通过光盘来进行备份,而每张光盘的容量只有700M,那么该如何存储呢?解决的办法就是将最后的压缩包按照指定大小进行分割,这就需要用到split命令了。举例说明:要将目录logs打...

2012-04-11 10:06:21 1424

原创 Linux上iptables防火墙的基本应用教程

iptables是Linux上常用的防火墙软件,下面vps侦探给大家说一下iptables的安装、清除iptables规则、iptables只开放指定端口、iptables屏蔽指定ip、ip段及解封、删除已添加的iptables规则等iptables的基本应用。1、安装iptables防火墙如果没有安装iptables需要先安装,CentOS执行:yum install iptable...

2012-04-09 11:51:47 61

原创 常用查看Linux系统信息命令

系统# uname -a # 查看内核/操作系统/CPU信息# head -n 1 /etc/issue # 查看操作系统版本# cat /proc/cpuinfo # 查看CPU信息# hostname # 查看计算机名# lspci -tv # 列出所有PCI设备# ls...

2012-04-09 11:22:04 82

原创 hadoop中的trash机制,恢复删除的文件

Hadoop回收站trash,默认是关闭的。1.修改conf/core-site.xml,增加 Xml代码 <property>   <name>fs.trash.interval</name>   <value>1440</value>   <description>Number of minutes between t...

2012-03-31 13:46:59 821

原创 Hadoop 和DBMS 的互补性

随着Microsoft 也加入Hadoop 阵营,Hadoop 已经完全变成了DBMS 的好朋友了 , 2年之前的SIGMOD组织提出的“A Comparison of Approaches to Large-Scale Data Analysis”引发了关于并行数据库和MapReduce模型的讨论, 双方唇枪舌剑之后发现两个系统根本就是各有所长, DBMS 目前有些处理好的领域和商业支持,Had...

2012-03-29 12:22:48 286

原创 Hadoop 中的两表join

转自:http://www.gemini5201314.net/hadoop/hadoop-%e4%b8%ad%e7%9a%84%e4%b8%a4%e8%a1%a8join.html 作为数据分析中经常进行的join 操作,传统DBMS 数据库已经将各种算法优化到了极致,而对于hadoop 使用的mapreduce 所进行的join 操作,去年开始也是有各种不同的算法论文出现,讨论各种算法...

2012-03-29 12:20:44 202

原创 各版本编译hadoop eclipse plugin

转自:http://www.gemini5201314.net/hadoop/%E5%90%84%E7%89%88%E6%9C%AC%E7%BC%96%E8%AF%91hadoop-eclipse-plugin.html最近一直在使用mapr版本的hadoop, 然后用的karmasphere 的eclipse plugin . 突然想找一个eclipse IDE 连接一下Cloudera 版...

2012-03-29 12:19:17 120

原创 Apache Mahout的Taste基于Hadoop实现协同过滤推荐引擎的代码分析

转自:http://hi.baidu.com/dmuyy/blog/item/2a0090e73c434334b83820fd.html Taste 是 Apache Mahout 提供的一个协同过滤算法的高效实现,它是一个基于Java实现的可扩展的高效的推荐引擎。该推荐引擎是用<userid,itemid,preference>这样简单的数据格式表达用户对物品...

2012-03-28 11:02:26 153

原创 hadoop常见错误

错误1:bin/hadoop dfs 不能正常启动,持续提示:INFO ipc.Client: Retrying connect to server: localhost/127.0.0.1:9000. Already tried 0 time(s).原因:由于 dfs 的部分文件默认保存在tmp文件夹,在系统重启时被删除。解决:修改core-site.xml 的 hadoop.tmp.dir...

2012-03-24 13:04:14 93

原创 hbase运维

转自:http://blog.bluedavy.com/?p=251NoSQL现在风生水起,hbase的使用也越来越广,但目前几乎所有的NoSQL产品在运维上都没法和DB相提并论,在这篇blog中来总结下我们在运维hbase时的一些问题以及解决的方法,也希望得到更多hbase同行们的建议,:)在运维hbase时,目前我们最为关注的主要是三大方面的状况:1. Cluster load;2. ...

2012-03-23 17:33:33 80

原创 Apache Commons工具集简介

转自:http://java.chinaitlab.com/base/859067.html Apache Commons包含了很多开源的工具,用于解决平时编程经常会遇到的问题,减少重复劳动。我选了一些比较常用的项目做简单介绍。文中用了很多网上现成的东西,我只是做了一个汇总整理。  一、Commons BeanUtils  http://jakarta.apache.org/com...

2012-03-22 10:16:46 75

原创 hadoop命令加载包的顺序

这几天在搞hadoop的一个基础包,过程中搞的很头大,明明用-libjars传了,在job提交前总是提示出错,新修改的函数执行出错。不过最后还是解决了,这要从hadoop本身加载包里函数的顺序说起。hadoop命令执行时,本地执行时(没有提交到jobtracker之前)要从CLASSPATH里加载jar包,并调用从CLASSPATH里jar包中的函数。在runjob之前,提交job的gatew...

2012-03-21 11:51:38 216

原创 Hadoop命令大全

转自:http://blog.csdn.net/wf1982/article/details/62155451、列出所有Hadoop Shell支持的命令  $ bin/hadoop fs -help2、显示关于某个命令的详细信息  $ bin/hadoop fs -help command-name3、用户可使用以下命令在指定路径下查看历史日志汇总  $ bin/hadoop job -hi...

2012-03-21 10:34:37 138

原创 Hadoop集群性能优化技术研究

转自:http://www.qikan120.com/qydtInfo.asp?ArticleID=78558 摘要:Hadoop技术已经在互联网领域得到广泛的应用,同时也得到了学术界的普遍关注。该文介绍了Hadoop作为基础数据处理平台仍然存在的问题,阐明了Hadoop性能优化技术研究的必然性,并介绍了当前Hadoop优化的三个主要思路:从应用程序角度进行优化、对Hadoop系统参数进行...

2012-03-16 10:25:27 169

原创 hadoop jar xxxx.jar的流程

转自:http://hi.baidu.com/dtzw/blog/item/64a6f3f2dff0511eb17ec5b0.html搞清楚 hadoop jar xxxx.jar 执行的流程: jar文件是如何分发的JobClient(不一定是hadoop集群的节点)利用bin/hadoop脚本运行jar包,以hadoop-0.20.2-examples.jar为例子:hadoop jar ...

2012-03-12 17:06:17 99

原创 hive实战

本文转自:http://www.cnblogs.com/xuqiang/archive/2011/06/15/2081796.html 1. 安装hive2. hive实战3. hive存储模型4. 深入hql查询语言5. 参考资料及代码下载 <1>. 安装hive 下载hive,下载地址http://mirror.bjtu.edu.cn/a...

2012-03-12 16:51:20 404

原创 Jackson 框架,轻易转换JSON

Jackson 框架,轻易转换JSONhttp://www.cnblogs.com/hoojo/archive/2011/04/22/2024628.html

2012-03-05 12:18:20 73

原创 Eclipse插件FatJar安装与使用

Eclipse插件fatjar打包项目,可以把需要的资源打进一个jar里。所以下载了一个,下载地址:http://sourceforge.net/project/showfiles.php?group_id=115990&package_id=125924 解压缩后是一个.../plugins/(net...)把plugins下面的(net..)文件夹拷贝到eclipse的plugins下...

2012-03-02 18:25:22 169

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除