2014年07月_colinmok

12月 11月 09月 08月 07月 06月 03月

转载何谓海量数据处理

何谓海量数据处理？所谓海量数据处理，无非就是基于海量数据上的存储、处理、操作。何谓海量，就是数据量太大，所以导致要么是无法在较短时间内迅速解决，要么是数据太大，导致无法一次性装入内存。那解决办法呢?针对时间，我们可以采用巧妙的算法搭配合适的数据结构，如Bloom filter/Hash/bit-map/堆/数据库或倒排索引/trie树，针对空间，无非就一个办法：大而化小：分而治之/hash映射

2014-07-18 15:12:31 568

转载 SQL三大范式

第一范式(1NF) (必须有主键，列不可分) 数据库表中的任何字段都是单一属性的，不可再分create table aa(id int,NameAge varchar(100)) insert aa values(1,''无限-女 '') 没有达到第一范式 create table aa(id int,name varcahr(10),age char(2)

2014-07-18 14:58:05 515

转载 Java开发中的23种设计模式详解(转)

设计模式（Design Patterns） ——可复用面向对象软件的基础设计模式（Design pattern）是一套被反复使用、多数人知晓的、经过分类编目的、代码设计经验的总结。使用设计模式是为了可重用代码、让代码更容易被他人理解、保证代码可靠性。毫无疑问，设计模式于己于他人于系统都是多赢的，设计模式使代码编制真

2014-07-17 17:30:24 543

转载 Java线程：并发协作-生产者消费者模型

原创作品，允许转载，转载时请务必以超链接形式标明文章原始出处、作者信息和本声明。否则将追究法律责任。http://lavasoft.blog.51cto.com/62575/221932

2014-07-17 15:21:33 311

原创学习总结：sybase中bcp命令批量导出和导入

1.编辑一个文件selectout.sql：set nocount onuse databasenamegoselect 'bcp databasename..' + name + ' out d:\temp\' + name + '.txt -Uusername -Ppassword -Sservername -c ' from sysobjects where ty

2014-07-17 11:17:56 13856 1

原创学习总结：TCP/IP协议与UDP协议

1. 区别 (1)TCP是面向连接的传输控制协议，而UDP提供了无连接的数据报服务；（2）TCP具有高可靠性，确保传输数据的正确性，不出现丢失或乱序；UDP在传输数据前不建立连接，不对数据报进行检查与修改，无须等待对方的应答，所以会出现分组丢失、重复、乱序，应用程序需要负责传输可靠性方面的所有工作；（3）也正因为以上特征，UDP具有较好的实时性，工作效率较TC

2014-07-16 23:35:31 481

原创总结：sybase数据库导入导出

今天在局域网中搭建一个搜索引挚的

2014-07-16 11:46:58 2449

原创学习总结二十三：深入学习hbase数据库

1.hbase的region块大小，是由hbase-site.xml文件中的

2014-07-09 16:21:00 695

原创 linux常用命令收集

查看一个文件 tail -n 100 1.txt >2.txt

2014-07-08 22:42:48 309

转载学习总结二十二：flume是分布式的日志收集系统

1.flume是分布式的日志收集系统，把收集来的数据传送到目的地去。2.flume里面有个核心概念，叫做agent。agent是一个java进程，运行在日志收集节点。3.agent里面包含3个核心组件：source、channel、sink。3.1 source组件是专用于收集日志的，可以处理各种类型各种格式的日志数据,包括avro、thrift、exec、jms、spooling d

2014-07-07 12:43:56 638

原创学习总结二十一：Hbase集群搭建

1.hbase的机群搭建过程(在原来的hadoop0上的hbase伪分布基础上进行搭建)1.1 集群结构，主节点(hmaster)是hadoop0，从节点(region server)是hadoop1和hadoop21.2 修改hadoop0上的hbase的几个文件 (1)修改hbase-env.sh的最后一行export HBASE_MANAGES_ZK=false(2)修

2014-07-06 19:25:38 477

原创学习总结十九：Hbase数据库shell操作

创建表 create '表名称', '列族名称1','列族名称2','列族名称N'添加记录 put '表名称', '行名称', '列名称:', '值'查看记录 get '表名称', '行名称'查看表中的记录总数 count '表名称'删除记录 delete '表名' ,'行名称' , '列名称'删除一张表先要屏蔽该表，才能对该表进行删除，第一步 disable

2014-07-06 16:21:13 535

原创学习总结十八：Hbase数据库介绍

Hbase是Hadoop中的数据库，属于NoSql数据库。

2014-07-06 15:11:41 483

原创学习总结十七：ZooKeeper集群搭建

1.ZooKeeper1.1 zk可以用来保证数据在zk集群之间的数据的事务性一致。(传输的数据要保证2M以下，各服务器时间也要保持一致)2.如何搭建ZooKeeper服务器集群2.1 zk服务器集群规模不小于3个节点，要求各服务器之间系统时间要保持一致。2.2 在hadoop0的/usr/local目录下，解压缩zk....tar.gz，设置环境变量2.3 在conf目录

2014-07-05 22:48:30 459

原创学习总结四：hadoop集群动态增加新节点及下架一个节点

安全模式出现的场合：i

2014-07-05 18:20:50 741

转载学习总结五：Hadoop中CombineFileInputFormat详解

本文转载自：http://blog.csdn.net/wawmg/article/details/17095125在MR实践中，会有很多小文件，单个文件产生一个mapper，资源比较浪费，后续没有reduce逻辑的话，会产生很多小文件，文件数量暴涨，对后续的hive job产生影响。所以需要在mapper中将多个文件合成一个split作为输入，CombineFileInputF

2014-07-03 16:25:35 747

转载学习总结六：hadoop的集群安装

1.hadoop的分布式安装过程1.1 分布结构主节点(1个,是hadoop0):NameNode、JobTracker、SecondaryNameNode从节点(2个,是hadoop1、hadoop2):DataNode、TaskTracker1.2 各节点重新产生ssh加密文件1.3 编辑各个节点的/etc/hosts，在该文件中含有所有节点的ip与hostname的映射

2014-07-03 12:01:28 405

转载学习总结七：Hadoop的数据类型

1.Hadoop的数据类型要求必须实现Writable接口。2.java基本类型与Hadoop常见基本类型的对照Long LongWritableInteger IntWritableBoolean BooleanWritableString Text问：java类型如何转化为hadoop基本类型？答：调用hadoop类型的构造方法，或者调用set()方法。

2014-07-03 11:57:28 526

转载学习总结八：在eclipse中的写的代码如何提交作业到JobTracker中的?

问：在eclipse中的写的代码如何提交作业到JobTracker中的哪？答：(1)在eclipse中调用的job.waitForCompletion(true)实际上执行如下方法 connect();info = jobClient.submitJobInternal(conf);(2)在connect()方法中，实际上创建了一个JobClient对象。在调用该对象的

2014-07-03 11:56:21 843

转载学习总结九：hdfs中的RPC

1.RPC1.1 RPC (remote procedure call)远程过程调用.远程过程指的是不是同一个进程。1.2 RPC至少有两个过程。调用方(client)，被调用方(server)。1.3 client主动发起请求，调用指定ip和port的server中的方法，把调用结果返回给client。1.4 RPC是hadoop构建的基础。2. 通过例子获得的认识？

2014-07-03 11:54:00 673

转载学习总结十：hadoop的伪分布安装

1.hadoop的伪分布安装1.1 设置ip地址执行命令 service network restart验证: ifconfig1.2 关闭防火墙执行命令 service iptables stop验证: service iptables status1.3 关闭防火墙的自动运行执行命令 chkconfig iptables off验证: chkconfig -

2014-07-03 11:50:57 481

转载学习总结十一：linux常用命令

1.通过远程工具登陆到linux后，所在的位置是当前登录用户的家目录(home directory)。2.家目录的符号用~表示。3.linux的文件系统是一个树结构。 linux文件系统的树根成为根目录，使用符号"/"表示。 linux文件系统中使用符号".."表示上级目录。 linux文件系统中使用符号"."表示当前目录。 linux文件系统中，如果文件使用“.”

2014-07-03 11:49:15 350

原创总结一：jsp调用struts的action类中的map

近来做的一个项目用到了s:

2014-07-03 11:44:09 980

linxu系统php环境配置

centos6.5中配置php5.2.14+libiconv-1.14.tar.gz+ZendOptimizer-3.3.3-linux-glibc23-x86_64.tar.gz

2015-07-09

win7系统下，Eclipse4.2的中文字体偏小，看着好累。下面这个方法可以彻底解决： 1.下载YaHei.Consolas.1.12.ttf字体，放到系统盘C:\Windows\Fonts下即可。 2.重新启动Eclipse4.2按如下设置 Window-->>Preferences-->>General-->>Appearance-->>Colors and Fonts 选择右框的Basic-->>Aa Text Font 点Edit按钮选中字体YaHei.Consolas.1.12点确定即可。

2013-04-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

colinmok的专栏

转载何谓海量数据处理

转载 SQL三大范式

转载 Java开发中的23种设计模式详解(转)

转载 Java线程：并发协作-生产者消费者模型

原创学习总结：sybase中bcp命令批量导出和导入

原创学习总结：TCP/IP协议与UDP协议

原创总结：sybase数据库导入导出

原创学习总结二十三：深入学习hbase数据库

原创 linux常用命令收集

转载学习总结二十二：flume是分布式的日志收集系统

原创学习总结二十一：Hbase集群搭建

原创学习总结十九：Hbase数据库shell操作

原创学习总结十八：Hbase数据库介绍

原创学习总结十七：ZooKeeper集群搭建

原创学习总结十六：hadoop安全模式

原创学习总结四：hadoop集群动态增加新节点及下架一个节点

转载学习总结五：Hadoop中CombineFileInputFormat详解

转载学习总结六：hadoop的集群安装

转载学习总结七：Hadoop的数据类型

转载学习总结八：在eclipse中的写的代码如何提交作业到JobTracker中的?

转载学习总结九：hdfs中的RPC

转载学习总结十：hadoop的伪分布安装

转载学习总结十一：linux常用命令

原创总结一：jsp调用struts的action类中的map

linxu系统php环境配置

win7系统下，Eclipse4.2的中文字体偏小解决方案

SEO搜索引挚优化总结

Mysql查询重复语句

DOS定时关机cmd命令

SSH2整合compass做搜索引挚

myEclipse8.0配置svn服务

mysql导入数据库方法

JspRun!_6.0.0_GBK_War.zip安装压缩包

JspRun!_6.0.0_Source_GBK.zip源码

jspRun开源论坛JspRun!_6.0.0_GBK.zip

linux系统远程控制软件

MySql JDBC5.0驱动

spring2.0中文技术手册

空空如也