2016年08月_doupeihua

09月 08月 07月 04月 03月 02月 01月

转载分布式 Key-Value 存储系统：Cassandra 入门

Cassandra 的数据存储结构Cassandra 的数据模型是基于列族（Column Family）的四维或五维模型。它借鉴了 Amazon 的 Dynamo 和 Google's BigTable 的数据结构和功能特点，采用 Memtable 和 SSTable 的方式进行存储。在 Cassandra 写入数据之前，需要先记录日志 ( CommitLog )，然后数据开始写入到 Colu

2016-08-31 17:24:18 992

转载 ORACLE客户端乱码--修改Oracle客户端字符集

修改Oracle客户端字符集方法:1:可以通过修改注册表键值永久设置，类似于这样的键值:HKEY_LOCAL_MACHINE/SOFTWARE/Oracle/HOME0下,如一般的简体中文nls_lang＝SIMPLIFIED CHINESE_CHINA.ZHS16GBK 2:查看数据库当前字符集参数设置SQL> select userenv('language') f

2016-08-29 09:54:11 743

转载 Phoenix实现用SQL查询HBase

HBase，一个NoSQL数据库，可存储大量非关系型数据。HBase，可以用HBase shell进行操作，也可以用HBase Java api进行操作。HBase虽然是一个数据库，但是它的查询语句，很不太好用。要是能像使用Mysql等关系型数据库一样用sql语句操作HBase，那就很Perfect了。现有工具有很多Hive，Tez，Impala，Shark/Spark，Phoenix等。

2016-08-28 19:33:15 2364

转载 spark 读取hbase数据并转化为dataFrame

最近两天研究spark直接读取hbase数据，并将其转化为dataframe。之所以这么做，1、公司的数据主要存储在hbase之中2、使用dataframe，更容易实现计算。尽管hbase的官方已经提供了hbase-spark 接口，但是并未对外发布，而且目前的项目又有这方面的需求，且网上关于这么方面的参考比较少，故贴出来，代码如下，仅供参考

2016-08-28 18:53:41 1515

转载 hbase zookeeper独立搭建

一、zk单独搭建 1.修改配置文件：conf/zoo.cfgJava代码 tickTime=2000 dataDir=/home/hadoop/data/zookeeper clientPort=2181 initLimit=5 syncLimit=2 server.1=slave-01:2888:3888 server.2=s

2016-08-28 17:20:17 814

转载通过Sqoop实现Mysql / Oracle 与HDFS / Hbase互导数据

下文将重点说明通过Sqoop实现Mysql与HDFS互导数据，Mysql与Hbase,Oracle与Hbase的互导最后给出命令。一、Mysql与HDFS互导数据环境：宿主机器操作系统为Win7，Mysql安装在宿主机上，宿主机地址为192.168.66.963台虚拟机操作系统为Ubuntu-12.04.1-32位三台虚拟机已成功安装Hadoop，并实现免密钥互访，配hosts

2016-08-28 16:45:32 1008

转载 Hbase总结（六）hbase37个笔试题

以下试题是摘自互联网的基础上自己加了选项说明解释便于自己以后看时方便节省时间1. HBase来源于哪篇博文？ CA The Google File SystemB MapReduceC BigTableD Chubby2. 下面对HBase的描述哪些是正确的？ B、C、DA 不是开源的B 是面向列的C 是分布式

2016-08-27 11:23:13 1297

转载 Hbase总结（五）-hbase常识及habse适合什么场景

当我们对于数据结构字段不够确定或杂乱无章很难按一个概念去进行抽取的数据适合用使用什么数据库？答案是什么，如果我们使用的传统数据库，肯定留有多余的字段，10个不行，20个，但是这个严重影响了质量。并且如果面对大数据库，pt级别的数据，这种浪费更是严重的，那么我们该使用是什么数据库？hbase数个不错的选择，那么我们对于hbase还存在下列问题：1.Column Family代表什么？

2016-08-27 11:21:49 971

转载 Hbase总结（四）- Hbase与传统数据库的区别

在说HBase之前，我想再唠叨几句。做互联网应用的哥们儿应该都清楚，互联网应用这东西，你没办法预测你的系统什么时候会被多少人访问，你面临的用户到底有多少，说不定今天你的用户还少，明天系统用户就变多了，结果您的系统应付不过来了了，不干了，这岂不是咱哥几个的悲哀，说时髦点就叫“杯具啊”。其实说白了，这些就是事先没有认清楚互联网应用什么才是最重要的。从系统架构的角度来说，互联网应用更加看重系统性

2016-08-27 11:20:56 3022

转载 Hbase总结（三）-Hbase与Hive的区别与联系

问题导读：hive与hbase的底层存储是什么？hive是产生的原因是什么？habase是为了弥补hadoop的什么缺陷？共同点：1.hbase与hive都是架构在hadoop之上的。都是用hadoop作为底层存储区别：2.Hive是建立在Hadoop之上为了减少MapReduce jobs编写工作的批处理系统，HBase是为了支持弥补Hadoop对

2016-08-27 11:19:54 654

转载 hbase总结（二）-hbase安装

本篇介绍两种HBase的安装方式：本地安装方式和伪分布式安装方式。安装的前提条件是已经成功安装了hadoop，而且hadoop的版本要和hbase的版本相匹配。我将要安装的hbase是hbase-0.94.11版本，需要的hadoop是hadoop-1.2.1版本。hbase下载地址：http://mirror.bit.edu.cn/apache/hbase/hbase-0

2016-08-27 11:18:42 674

转载 Hbase总结（一）-hbase命令

下面我们看看HBase Shell的一些基本操作命令，我列出了几个常用的HBase Shell命令，如下：名称命令表达式创建表create '表名称', '列名称1','列名称2','列名称N'添加记录 put '表名称', '行名称', '列名称:', '值'查看记录

2016-08-27 11:16:54 2646

转载 iconv 文件编码转换

linux shell 配置文件中默认的字符集编码为UTF－8 。UTF－8是unicode的一种表达方式，gb2312是和unicode都是字符的编码方式，所以说gb2312跟utf－8的概念应该不是一个层次上的。在LINUX上进行编码转换时,可以利用iconv命令实现,这是针对文件的,即将指定文件从一种编码转换为另一种编码。查了下iconv命令用法如下：iconv [选项...] [

2016-08-25 20:39:49 559

转载 sqoop数据导入导出

mysql数据导入导出到hdfsmysql导入到hdfs bin/sqoop help import 查看帮助bin/sqoop import \--connect jdbc:mysql://hadoop-senior0.ibeifeng.com:3306/study \--username root \--password 123456 \--table my_user \--targe

2016-08-25 14:21:32 2108

转载 Sqoop安装配置及将mysql数据导入到hdfs中

1. 解压Sqoop以及jar包拷贝1) Hadoop版本为1.0.4，下载sqoop版本1.4.4-1.0.0，解压。2) 将mysql-connector的jar包（5.1.29版本）复制至sqoop解压后的lib目录下。3) 把sqoop根目录下的sqoop-1.4.4.jar以及mysql-connector的jar包复制到hadoop根目录下的

2016-08-23 15:16:26 1505

转载 Hive总结（三）hive组件和执行过程

对Hive的基本组成进行了总结：1、组件：元存储（Metastore ）－存储“系统目录以及关于表、列、分区等的元数据”的组件。驱动（Driver ）－控制 HiveQL 生命周期的组件，当 HiveQL 查询穿过 Hive时。该驱动管理着会话句柄以及任何会话的统计。查询编译器（Query Compiler）－是一个组件，将HiveQL编译成有向无环图（direc

2016-08-23 14:28:34 412

转载 Hive总结（二）hive基本操作

阅读本文章可以带着下面问题：1.与传统数据库对比，找出他们的区别2.熟练写出增删改查（面试必备）创建表：hive> CREATE TABLE pokes (foo INT, bar STRING); Creates a table called pokes with two columns, the first being an integer and th

2016-08-23 14:27:55 425

转载 Hive总结（一）hive初始

1.没有接触，不知道这个事物是什么，所以不会产生任何问题。2.接触了，但是不知道他是什么，反正我每天都在用。3.有一定的了解，不够透彻。那么hive，1.我们对它了解多少？2.它到底是什么？3.hive和hadoop是什么关系？扩展：hbase和hive是什么关系？Hive最初是应Facebook每天产生的海量新兴社会网络数据进行管理和机器学习的需求

2016-08-23 14:26:54 315

转载 Hive教程之metastore的三种模式

Hive中metastore（元数据存储）的三种方式：内嵌Derby方式Local方式Remote方式[一]、内嵌Derby方式这个是Hive默认的启动模式，一般用于单元测试，这种存储方式有一个缺点：在同一时间只能有一个进程连接使用数据库。hive-site.xml 中jdbc URL、驱动、用户名、密码等的配置信息如下：XHTML javax.

2016-08-19 17:41:42 1502

转载 Ubuntu 安装mysql和简单操作

ubuntu上安装mysql非常简单只需要几条命令就可以完成。　　1. sudo apt-get install mysql-server 　　2. apt-get isntall mysql-client 　　3. sudo apt-get install libmysqlclient-dev 　　安装过程中会提示设置密码什么的，注意设置了不要忘了，安装完成

2016-08-19 13:31:47 378 1

转载 MySQL中的alter table命令的基本使用方法及提速优化

一、基本用法1. 增加列?1alter table tbl_name addcol_name type例如, 给pet的表增加一列 weight,?1mysql>altertable pet addweight int;

2016-08-17 15:34:35 2032

转载《Oracle SQL优化基础》之分区

首先我们从一个图书馆引出话题（又是那个图书馆，是不是该取个名字了）我们之前索引那一篇里的图书馆有100w本书，那个学校来借了一次80w本书，把图书馆管理员累的不行。后来那他申请按照书内容的类型进行排序，分层摆放。后面有学校再来接的时候说我要烹饪类的书，他就可以直接找到，无需“全表扫描”，也不用翻目录了，这也就是我们今天所讲的分区。分区表的概念分区是Oracle8i引入的一

2016-08-13 19:26:48 1329

转载《Oracle SQL优化基础》之位图索引(BitMap index)

有不少做BI的后台同事问我，位图索引是啥？啥时候用？此篇仅作为一个扫盲篇，有不对的地方欢迎大神指正。首先我们要搞明白位图索引是什么，与普通的B*树索引有什么区别呢？顾名思义，首先他是个索引（废话！），其次是以位图的形式进行存储、计算的。看个图，下面是我们常用的B*树索引结构（取自网络）：可以看得出，表中索引列的每行数据都会维护到索引树中（Null值除外）再来看看我们的位图

2016-08-13 19:25:37 5481

转载《Oracle SQL优化基础》之索引

最首先我想还是先百度下索引的定义：索引，使用索引可快速访问数据库表中的特定信息。索引是对数据库表中一列或多列的值进行排序的一种结构。好的，就是因为这样一种朦胧两可的定义，导致现在绝大部分初学者甚至老油条都无法正确认识并使用索引。这一篇主要还是讲下基础，再深的原理机制不再此篇幅中，如果大家都懂了，后续深入下面分这几点给大家讲下：索引的一些基本概念。索引类型

2016-08-13 19:24:39 763

转载 OLTP和OLAP有何区别?

当今的数据处理大致可以分成两大类：联机事务处理OLTP（on-line transaction processing）、联机分析处理OLAP（On-Line Analytical Processing）。OLTP是传统的关系型数据库的主要应用，主要是基本的、日常的事务处理，例如银行交易。OLAP是数据仓库系统的主要应用，支持复杂的分析操作，侧重决策支持，并且提供直观易懂的查询结果.OLTP:

2016-08-12 14:28:29 1296

转载 oracle排查错误sql的一些方法

oracle排查异常sql的一些方法1、查看值得怀疑的SQLselect substr(to_char(s.pct, '99.00'), 2) || '%' load, s.executions executes, p.sql_text from (select address, disk_reads,

2016-08-10 13:10:19 2289

转载 spark sql根本使用方法介绍

spark sql基本使用方法介绍spark中可以通过spark sql 直接查询hive或impala中的数据，一、启动方法/data/spark-1.4.0-bin-cdh4/bin/spark-sql --master spark://master:7077 --total-executor-cores 10 --executor-memory 1g

2016-08-10 13:04:59 4394

转载 Spark入门实战系列--6.SparkSQL（下）--Spark实战应用

1、运行环境说明1.1 硬软件环境l 主机操作系统：Windows 64位，双核4线程，主频2.2G，10G内存l 虚拟软件：VMware® Workstation 9.0.0 build-812388l 虚拟机操作系统：CentOS 64位，单核l 虚拟机运行环境：Ø JDK：1.7.0_55 64位Ø Hadoop：2.2.0（需要编译为64位）Ø

2016-08-09 12:53:47 436

转载 Spark入门实战系列--6.SparkSQL（中）--深入了解SparkSQL运行计划及调优

1.1 运行环境说明1.1.1 硬软件环境l 主机操作系统：Windows 64位，双核4线程，主频2.2G，10G内存l 虚拟软件：VMware® Workstation 9.0.0 build-812388l 虚拟机操作系统：CentOS6.5 64位，单核l 虚拟机运行环境：Ø JDK：1.7.0_55 64位Ø Hadoop：2.2.0（需要编译为

2016-08-09 12:52:47 2424

转载 Spark入门实战系列--6.SparkSQL（上）--SparkSQL简介

1、SparkSQL的发展历程1.1 Hive and SharkSparkSQL的前身是Shark，给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具，Hive应运而生，它是当时唯一运行在Hadoop上的SQL-on-Hadoop工具。但是MapReduce计算过程中大量的中间磁盘落地过程消耗了大量的I/O，降低的运行效率，为了提高SQL-on-Hadoop的效率，

2016-08-09 12:51:29 465

转载 hadoop之hbase实现web 小实例

[java] view plain copypackage web; import java.io.IOException; import java.io.PrintWriter; import java.util.ArrayList; import java.util.List; import javax.servlet.

2016-08-09 12:42:45 697

转载如何从优化SQL入手提高数据仓库的ETL效率

在海量数据表中，基本每个表都有一个或多个的索引来保证高效的查询，在ETL过程中的索引需要遵循以下使用原则：(5) 函数的列启用索引方法，如果一定要对使用函数的列启用索引，Oracle9i以上版本新的功能：基于函数的作者：周四阳　蔡自兴1 引言数据仓库建设中的ETL(Extract, Transform, Load)是数据抽取、转换和装载到模型的

2016-08-09 12:18:03 474

转载十八款Hadoop工具帮你驯服大数据

Hadoop已经通过自身的蓬勃发展证明，它不仅仅是一套用于将工作内容传播到计算机群组当中的小型堆栈--不，这与它的潜能相比简直微不足道。这套核心的价值已经被广泛证实，目前大量项目如雨后春笋般围绕它建立起来。有些项目负责数据管理、有些负责流程监控、还有一些则提供先进的数据存储机制。Hadoop业界正在迅速发展，从业企业拿出的解决方案也多种多样，其中包括提供技术支持、在托管集群中提供按时租用服务

2016-08-03 21:03:06 421

转载一文读懂大数据：Hadoop，大数据技术、案例及相关应用

你想了解大数据，却对生涩的术语毫不知情？你想了解大数据的市场和应用，却又没有好的案例和解说？别担心，这本来自Wikibon社区的小书想要帮你。是的，这是一本小书而不是一篇文章，因为它详实细致的让你从一个完全不了解大数据技术及相关应用的门外汉，变成一个熟知其概念和意义的“内行人”，所以它很棒！主要内容·1来自Wikibon社区的大数据宣言·2数据处理与分析：传统方式·3大数据性质

2016-08-03 20:08:36 9688

dom4j解析XML的两个JAR包(dom4j-1.6.1.jar 和 jaxen.jar)

2014-04-20

Linux爱好者入门教程

操作系统是一种特殊的软件，用来让计算机硬件和软件协同工作，并且处理我们敲打键盘和移动鼠标这些动作。常见的操作系统有 Windows，它有很多版本；MACOS，苹果电脑上就用它；UNIX，很多大型机都使用稳定的 UNIX；Linux，就是我们今天的主角，一种功能强大，运行稳定，性能优异的公开源代码的操作系统。

2010-12-22

介绍什么是数据挖掘，什么是数据库中知识发现。书中的材料从数据库角度提供，特别强调发现隐藏在大型数据集中有趣数据模式的数据挖掘基本概念和技术。所讨论的实现方法主要面向可规模化的、有效的数据挖掘工具开发。本章，你将学习数据挖掘如何成为数据库技术自然进化的一部分，为什么数据挖掘是重要的，以及如何定义数据挖掘。你将学习数据挖掘系统的一般结构，并考察挖掘的数据种类，可以发现的数据类型，以及什么样的模式提供有用的知识。除学习数据挖掘系统的分类之外，你将看到建立未来的数据挖掘工具所面临的挑战性问题。

2010-12-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

dom4j解析XML的两个JAR包(dom4j-1.6.1.jar 和 jaxen.jar)

jquery ztree两棵树权限管理的demo分享

网页中单表格支持横纵表头锁定

Linux爱好者入门教程

数据挖掘_-_概念与技术

空空如也