- 博客(24)
- 资源 (14)
- 收藏
- 关注
转载 何谓海量数据处理
何谓海量数据处理? 所谓海量数据处理,无非就是基于海量数据上的存储、处理、操作。何谓海量,就是数据量太大,所以导致要么是无法在较短时间内迅速解决,要么是数据太大,导致无法一次性装入内存。 那解决办法呢?针对时间,我们可以采用巧妙的算法搭配合适的数据结构,如Bloom filter/Hash/bit-map/堆/数据库或倒排索引/trie树,针对空间,无非就一个办法:大而化小:分而治之/hash映射
2014-07-18 15:12:31 568
转载 SQL三大范式
第一范式(1NF) (必须有主键,列不可分) 数据库表中的任何字段都是单一属性的,不可再分create table aa(id int,NameAge varchar(100)) insert aa values(1,''无限-女 '') 没有达到第一范式 create table aa(id int,name varcahr(10),age char(2)
2014-07-18 14:58:05 515
转载 Java开发中的23种设计模式详解(转)
设计模式(Design Patterns) ——可复用面向对象软件的基础设计模式(Design pattern)是一套被反复使用、多数人知晓的、经过分类编目的、代码设计经验的总结。使用设计模式是为了可重用代码、让代码更容易被他人理解、保证代码可靠性。 毫无疑问,设计模式于己于他人于系统都是多赢的,设计模式使代码编制真
2014-07-17 17:30:24 543
转载 Java线程:并发协作-生产者消费者模型
原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 、作者信息和本声明。否则将追究法律责任。http://lavasoft.blog.51cto.com/62575/221932
2014-07-17 15:21:33 311
原创 学习总结:sybase中bcp命令批量导出和导入
1.编辑一个文件selectout.sql:set nocount onuse databasenamegoselect 'bcp databasename..' + name + ' out d:\temp\' + name + '.txt -Uusername -Ppassword -Sservername -c ' from sysobjects where ty
2014-07-17 11:17:56 13856 1
原创 学习总结:TCP/IP协议与UDP协议
1. 区别 (1)TCP是面向连接的传输控制协议,而UDP提供了无连接的数据报服务;(2)TCP具有高可靠性,确保传输数据的正确性,不出现丢失或乱序;UDP在传输数据前不建立连接,不对数据报进行检查与修改, 无 须等待对方的应答,所以会出现分组丢失、重复、乱序,应用程序需要负责传输可靠性方面的所有工作;(3)也正因为以上特征,UDP具有较好的实时性,工作效率较TC
2014-07-16 23:35:31 481
转载 学习总结二十二:flume是分布式的日志收集系统
1.flume是分布式的日志收集系统,把收集来的数据传送到目的地去。2.flume里面有个核心概念,叫做agent。agent是一个java进程,运行在日志收集节点。3.agent里面包含3个核心组件:source、channel、sink。3.1 source组件是专用于收集日志的,可以处理各种类型各种格式的日志数据,包括avro、thrift、exec、jms、spooling d
2014-07-07 12:43:56 638
原创 学习总结二十一:Hbase集群搭建
1.hbase的机群搭建过程(在原来的hadoop0上的hbase伪分布基础上进行搭建)1.1 集群结构,主节点(hmaster)是hadoop0,从节点(region server)是hadoop1和hadoop21.2 修改hadoop0上的hbase的几个文件 (1)修改hbase-env.sh的最后一行export HBASE_MANAGES_ZK=false(2)修
2014-07-06 19:25:38 477
原创 学习总结十九:Hbase数据库shell操作
创建表 create '表名称', '列族名称1','列族名称2','列族名称N'添加记录 put '表名称', '行名称', '列名称:', '值'查看记录 get '表名称', '行名称'查看表中的记录总数 count '表名称'删除记录 delete '表名' ,'行名称' , '列名称'删除一张表 先要屏蔽该表,才能对该表进行删除,第一步 disable
2014-07-06 16:21:13 535
原创 学习总结十七:ZooKeeper集群搭建
1.ZooKeeper1.1 zk可以用来保证数据在zk集群之间的数据的事务性一致。(传输的数据要保证2M以下,各服务器时间也要保持一致)2.如何搭建ZooKeeper服务器集群2.1 zk服务器集群规模不小于3个节点,要求各服务器之间系统时间要保持一致。2.2 在hadoop0的/usr/local目录下,解压缩zk....tar.gz,设置环境变量2.3 在conf目录
2014-07-05 22:48:30 459
转载 学习总结五:Hadoop中CombineFileInputFormat详解
本文转载自:http://blog.csdn.net/wawmg/article/details/17095125在MR实践中,会有很多小文件,单个文件产生一个mapper,资源比较浪费,后续没有reduce逻辑的话,会产生很多小文件,文件数量暴涨,对后续的hive job产生影响。所以需要在mapper中将多个文件合成一个split作为输入,CombineFileInputF
2014-07-03 16:25:35 747
转载 学习总结六:hadoop的集群安装
1.hadoop的分布式安装过程1.1 分布结构 主节点(1个,是hadoop0):NameNode、JobTracker、SecondaryNameNode从节点(2个,是hadoop1、hadoop2):DataNode、TaskTracker1.2 各节点重新产生ssh加密文件1.3 编辑各个节点的/etc/hosts,在该文件中含有所有节点的ip与hostname的映射
2014-07-03 12:01:28 405
转载 学习总结七:Hadoop的数据类型
1.Hadoop的数据类型要求必须实现Writable接口。2.java基本类型与Hadoop常见基本类型的对照Long LongWritableInteger IntWritableBoolean BooleanWritableString Text问:java类型如何转化为hadoop基本类型?答:调用hadoop类型的构造方法,或者调用set()方法。
2014-07-03 11:57:28 526
转载 学习总结八:在eclipse中的写的代码如何提交作业到JobTracker中的?
问:在eclipse中的写的代码如何提交作业到JobTracker中的哪?答:(1)在eclipse中调用的job.waitForCompletion(true)实际上执行如下方法 connect();info = jobClient.submitJobInternal(conf);(2)在connect()方法中,实际上创建了一个JobClient对象。 在调用该对象的
2014-07-03 11:56:21 843
转载 学习总结九:hdfs中的RPC
1.RPC1.1 RPC (remote procedure call)远程过程调用.远程过程指的是不是同一个进程。1.2 RPC至少有两个过程。调用方(client),被调用方(server)。1.3 client主动发起请求,调用指定ip和port的server中的方法,把调用结果返回给client。1.4 RPC是hadoop构建的基础。2. 通过例子获得的认识?
2014-07-03 11:54:00 673
转载 学习总结十:hadoop的伪分布安装
1.hadoop的伪分布安装1.1 设置ip地址执行命令 service network restart验证: ifconfig1.2 关闭防火墙执行命令 service iptables stop验证: service iptables status1.3 关闭防火墙的自动运行执行命令 chkconfig iptables off验证: chkconfig -
2014-07-03 11:50:57 481
转载 学习总结十一:linux常用命令
1.通过远程工具登陆到linux后,所在的位置是当前登录用户的家目录(home directory)。2.家目录的符号用~表示。3.linux的文件系统是一个树结构。 linux文件系统的树根成为根目录,使用符号"/"表示。 linux文件系统中使用符号".."表示上级目录。 linux文件系统中使用符号"."表示当前目录。 linux文件系统中,如果文件使用“.”
2014-07-03 11:49:15 350
linxu系统php环境配置
2015-07-09
win7系统下,Eclipse4.2的中文字体偏小解决方案
2013-04-27
myEclipse8.0配置svn服务
2011-10-19
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人