2016年03月_MatrixSparse

原创 Spark集群运行模式

Spark集群运行模式spark集群四种运行模式Local(只需要一台机器)Standalone(不需要Hadoop集群也可以跑Spark，Spark自带的集群模式)YarnMesos1、解压压缩文件到指定目录[root@node1 software]# tar -zxf spark-1.3.1-bin-hadoop2.4.tgz -C /opt/modules[root@node1 mo

2016-03-28 22:59:31 2113

MR去重数据去重："数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。设计思路数据去重的最终目标是让原始数据中出现次数超过一次的数据在输出文件中只出现一次。我们自然而然会想到将同一个数据的所有记录都交给一台reduce机器，无论这个数据出现多少次

2016-03-27 21:57:57 2042

原创 MR案例之实现平均成绩

MR实现平均成绩mapreduce是否可以完成我们传统开发中经常遇到的一些任务。例如排序、平均数、批量word转换等。它和我们传统开发有什么不同。那么我们可以带着下面问题来阅读：1.mapreduce是如何求平均值的？2.map在求平均值的作用是什么？3.reduce在求平均值的作用是什么？一、简介："平均成绩"主要目的还是在重温经典"WordCount"例子，可以说是在基础上的微变化版，该实例主

2016-03-27 21:57:24 1863

原创 MR案例之倒排索引TF-IDF

MR案例之倒排索引简介："倒排索引"是文档检索系统中最常用的数据结构，被广泛地应用于全文搜索引它主要是用来存储某个单词（或词组）在一个文档或一组文档中的存储位置的映射，即提供了一种根据内容来查找文档的方式。由于不是根据文档来确定文档所包含的内容，而是进行相反的操作，因而称为倒排索引（Inverted Index）。详情描述通常情况下，倒排索引由一个单词（或词组）以及相关的文档列表组成，文档列表中的

2016-03-27 21:46:15 3309

原创日志分析项目

日志数据分析案例1.背景1.1 某论坛日志，数据分为两部分组成，原来是一个大文件，是56GB；以后每天生成一个文件，大约是150-200MB之间；1.2 日志格式是apache common日志格式；1.3 分析一些核心指标，供运营决策者使用；1.4 开发该系统的目的是分了获取一些业务相关的指标，这些指标在第三方工具中无法获得的；2.开发步骤2.1 把日志数据上传到HDFS中进行处理

2016-03-27 14:52:52 1152 1

原创 Sqoop导出数据

Sqoop导出数据到Hive上flume收集日志：主动的和被动的看文档sqoop底层是MR，要运行sqoop要有yarn环境，做大数据平台和关系型数据库导入导出工具，必须要有连接数据库的驱动sqoop和hive必须在一个节点上，sqoop和hive都是工具如果多个节点都安装了hive，如何保证多个hive的数据一致-->保证元数据一致-->即保证各个hive中存储元数据(公用元数据)的地方是一个地方

2016-03-25 22:43:39 595

原创 Sqoop导入数据到Hive

Sqoop导入数据到Hive上flume收集日志：主动的和被动的看文档sqoop底层是MR，要运行sqoop要有yarn环境，做大数据平台和关系型数据库导入导出工具，必须要有连接数据库的驱动1、node1节点上已经安装了mysql，并允许远程连接：[root@node1 ~]# service mysql start[root@node1 ~]# service mysql status2、将数据

2016-03-25 22:42:57 1269

原创 Sqoop导入数据到HDFS上

Sqoop导入数据到HDFS上flume收集日志：主动的和被动的看文档sqoop底层是MR，要运行sqoop要有yarn环境，做大数据平台和关系型数据库导入导出工具，必须要有连接数据库的驱动1、node1节点上已经安装了mysql，并允许远程连接：[root@node1 ~]# service mysql start[root@node1 ~]# service mysql status2、将数据

2016-03-25 22:42:20 1977

原创 Flume安装使用

Flume安装使用配置Flume被动收集日志1、解压Flume压缩文件到指定目录[root@node1 software]# tar -zxf apache-flume-1.6.0-bin.tar.gz -C /opt/modules1.1、文件重命名[root@node1 modules]# mv apache-flume-1.6.0-bin flume-1.6.02、配置Flume环境变量[

2016-03-23 16:20:21 498

原创 Mahout测试

Mahout测试1、安装rar工具[root@node1 software]# tar -zxf rarlinux-x64-5.3.0.tar.gz[root@node1 software]# cd rar[root@node1 rar]# make2、将mahout-mahout-0.9目录文件上传到指定目录下3.运行一个Mahout案例运行Mahout自带的Kmeans算法，同时验证安装的

2016-03-21 13:38:33 574

原创 Hive Join

Hive使用详解Hive JoinHive 只支持等值连接（equality joins）、外连接（outer joins）和（left/right joins）。Hive 不支持所有非等值的连接，因为非等值连接非常难转化到 map/reduce 任务。另外，Hive 支持多于 2 个表的连接。准备a.txt、b.txt、c.txt，表中字段默认’\t’分隔[root@node1 hive-1.2

2016-03-20 17:49:25 537

原创 Hbase的shell命令练习

Hbase shell命令练习准备启动HBase，要确认已启动Hadoop集群，Zookeeper[root@node5 hadoop-2.5.1]# start-hbase.sh进入Hbase[root@node5 ~]# hbase shell显示Hbase中的表hbase(main):001:0> list1、创建user表，包含info、data两个列族创建表方式一：hbase(mai

2016-03-20 11:31:06 1454

原创 Hbase基本shell运用

Hbase基本shell运用学生成绩表name grad course math artzkb 5 97 87baoniu 4 89 801、建立一个表格scores具有两个列族grad和coursehbase(main):007:0> create 'score','grade','co

2016-03-20 08:50:49 582

原创 Lucene之建立索引以及根据索引查询

Lucene想要对目录下的文件数据进行检索，先建立索引1、建立索引Demo的结构Indexer.javapackage com.matrix.lucene;import java.io.File;import java.io.FileReader;import java.nio.file.Paths;import org.apache.lucene.analysis.Analyzer;imp

2016-03-17 21:25:22 620

原创 Phonenix与HBase结合

Phonenix与HBase结合1、解压phoenix压缩文件[root@node5 software]# tar -zxf phoenix-4.5.2-HBase-1.1-bin.tar.gz2、将解压后的包里的phoenix-core-4.5.2-HBase-1.1.jar，拷贝到集群各个节点HBase的lib目录下这里的包看版本了，记住前缀是phoenix-core的包，如果这里有phone

2016-03-17 17:07:10 808

原创 Hbase的API使用

HBase的API使用1、导入jar包2、导入额外jar包创建表TestBase.javapackage com.matrix.hbase;import java.io.IOException;import java.util.Random;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBa

2016-03-15 22:57:19 1101

原创 HBase分布式集群搭建

HBase分布式集群搭建前提：HBase数据要存储到HDFS上，要有Zookeeper,即要先安装/启动HDFS才能安装/启动HBase选择192.168.230.11(node2)、192.168.230.12(node3)、192.168.230.14(node5)主机搭建分布式集群准备工作：1> 解压Hbase压缩文件到指定目录下[root@node5 software]# tar -zxf

2016-03-15 22:41:45 604

原创 Hbase的shell命令

HBase的shell命令1、查询服务器状态hbase(main):002:0> status 、查看版本hbase(main):008:0> version 2、创建表hbase(main):003:0> create 'bdclass' , 'bdinfo' , 'bdother'hbase(main):006:0> create 'score','grade','course' 3、

2016-03-15 22:15:03 500

原创 HBase应用场景、原理与基本架构

HBaseHbase概述Hbase物理模型Hbase数据模型Hbase基本架构Hbase应用举例1、HBase概述HBase是一个构建在HDFS上的分布式列存储系统；HBase是Apache Hadoop生态系统中的重要一员，主要用于海量结构化数据存储从逻辑上讲， HBase将数据按照表、行和列进行存储。Hbase是Hadoop生态系统的一个组成部分1.1、HBase与HDFS的对比两者

2016-03-15 09:53:37 4117 1

原创 Hive的复杂数据类型

Hive复杂数据类型1、Array数据类型的使用1.1、创建数据库表，以array作为数据类型0: jdbc:hive2://192.168.230.10:10000> create table person(name string,worklocations array<string>) row format delimited fields terminated by '\t' collec

2016-03-13 15:22:28 885

原创 HQL执行的三种方式

HQL脚本三种执行方式1> hive -e 'hql'2> hive -f 'hql.file'3> hive jdbc代码执行脚本Hive jdbc代码执行脚本1、导入hive安装文件lib目录下的所有jar包2、启动hive server[root@node1 hive-1.2.1]# ./bin/hive --service hiveserver2[root@node1 hive-1.2.1

2016-03-13 13:19:44 7061

原创 HiveServer2

HiveServer21、准备node5(192.168.230.14)作为Hive Client1.1、将node1(192.168.230.10)//Hive Server配置好的hive文件发送给node5[root@node1 hive-1.2.1]# scp -r /opt/modules/hive-1.2.1/ root@node5:/opt/modules/hive-1.2.1/[ro

2016-03-13 13:17:15 473

原创 hive日志分析

基站掉话率分析record_time：通话时间imei：基站编号cell：手机编号drop_num：掉话的秒数duration：通话持续总秒数目标找出掉线率最高的基站掉线率(CDP)=掉话的秒数(drop_num)/通话持续总秒数(duration)数据分析1、在hive中创建表2、将数据加载到刚在Hive创建的表中3、查询数据并将hive查询出来的数据导出到指定文件夹下如何使在mys

2016-03-12 16:21:48 382

原创 hive日志分析

基站掉话率分析record_time：通话时间imei：基站编号cell：手机编号drop_num：掉话的秒数duration：通话持续总秒数目标找出掉线率最高的基站掉线率(CDP)=掉话的秒数(drop_num)/通话持续总秒数(duration)数据分析1、在hive中创建表2、将数据加载到刚在Hive创建的表中3、查询数据并将hive查询出来的数据导出到指定文件夹下1、在hive

2016-03-12 16:03:56 700

原创 Hive中metastore（元数据存储）三种方式区别和搭建

Hive中metastore（元数据存储）三种方式区别和搭建Hive中metastore（元数据存储）的三种方式：a)内嵌Derby方式b)Local方式c)Remote方式1、内嵌Derby方式搭建1.1、上传hive安装压缩文件到Linux主机的指定目录1.2、解压hive压缩文件，到指定目录[root@node1 software]# tar -zxf apache-hive-1.2.1-b

2016-03-12 16:03:40 15123

原创 MR案例之手机流量

MR案例之手机流量序列化原理Eclipse快捷键：main方法快捷：main+alt+/输出快捷：sysout+alt+/FlowBean.javapackage com.matrix.flowsum;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import org.apache.h

2016-03-11 13:11:22 480

原创 MR执行环境

MR执行环境MR执行环境有两种：本地测试环境，服务器环境1、本地测试环境(windows)：1.1、在windows下配置hadoop的环境变量 1.2、拷贝debug工具(winutils.exe)到在windows的hadoop目录bin目录1.3、修改hadoop的源码，注意：确保项目的lib需要真实安装的jdk的lib1.4、MR调用的代码需要改变：a、src不能有服务器的hadoop

2016-03-09 22:34:02 540

原创 MR案例之WordCount

MR案例之WordCount1、在Eclipse上编写程序1.1、导入hadoop的jar包 1.2、项目结构WordCountMapper.javapackage com.matrix.mr;import java.io.IOException;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongW

2016-03-09 10:24:00 845

原创测试集群是否搭建成功

测试集群是否搭建成功1、在HDFS文件系统创建文件夹进入hadoop安装目录[root@node1 ~]#cd /opt/modules/hadoop-2.5.1 [root@node1 hadoop-2.5.1]# ./bin/hdfs dfs -mkdir -p /usr/matrix2、将文件上传到HDFS文件系统的指定文件夹中[root@node1 hadoop-2.5.1]# ./bi

2016-03-08 18:05:32 638

原创 YARN的HA搭建

YARN的HA搭建选择192.168.230.10(node1),192.168.230.14(node5)两台主机作为ResourceManagerdatanode与nodemanager一定要放在一个机器上YARN的体系架构1、配置/opt/modules/hadoop-2.5.1/etc/hadoop/mapred-site.xml:<configuration> <propert

2016-03-08 18:03:10 609

原创 HDFS-HA的搭建

HDFS HA(高可用)NameNode HA免密码：登录到别的机器上去执行脚本将原来hdfs-site.xml文件中的配置删除，配置hdfs HA的配置1、配置/opt/modules/hadoop-2.5.1/etc/hadoop目录下的hdfs-site.xml文件<configuration> <property> <name>dfs.nameservi

2016-03-08 14:25:38 737

原创单机搭建Solr

搭建并调试Solr 1、准备jdk7和tomcat72、拷贝solr目录下example/webapps/solr.war，到tomcat下的webapps目录中。3、启动tomcat7[root@node1 ~]# ./bin/startup.sh4、编辑tomcat7中的webapps/solr目录中WEB-INF/web.xml[root@node1 ~]# cd /opt/modules

2016-03-08 09:45:50 383

原创 Zookeeper部署完全分布式

Zookeeper部署完全分布式Zookeeper搭建规划192.168.230.10/node1 192.168.230.11/node2 192.168.230.12/node3 192.168.230.14/node41、上传Zookeeper压缩文件到Linux主机的指定目录下2、解压Zookeeper压缩文件[root@node1 software]# tar

2016-03-07 22:54:47 580

原创 HDFS的API操作

HDFS设计目标硬件错误：数量众多的廉价机器使得硬件错误成为常态数据流访问：应用以流的方式访问数据;设计用于数据的批量处理，而不是低延时的实时交互处理。放弃全面支持POSIX大数据集：典型的HDFS上的一个文件大小是G或T数量级的，支持一个云中文件数量达到千万数量级简单的相关模型：假定文件一次写入多次读取。未来可能支持Appending-writer的模型移动计算比移动数据便宜：一个应用请求的计算，

2016-03-07 22:16:58 611

原创 eclipse配置hadoop插件

Eclipse配置hadoop插件1、导入hadoop-eclipse-plugin-2.5.1.jar进入eclipse的F:\software\eclipse\plugins目录下2、在eclipse中window->preference-Hadoop Map/Reduce->添加hadoop-2.5.1的安装目录3、在window->Show View中打开Map/Reduce Locatio

2016-03-07 15:30:26 613

原创 hadoop介绍

Hadoophadoop官网：http://hadoop.apache.org/Hadoop的思想之源：Google面对的数据和计算难题大量的网页怎么存储搜索算法带给我们的关键技术和思想 GFS Map-ReduceHadoop创始人介绍Hadoop作者Doug cutting，就职Yahoo期间开发了Hadoop项目，目前在Cloudera 公司从事架构工作Hado

2016-03-04 22:53:05 594

原创 Hadoop完全分布式集群搭建

Hadoop完全分布式集群搭建使用四台Linux机器搭建集群规划：192.168.230.10 192.168.230.11 192.168.230.12 192.168.230.14NameNode DataNode DataNod

2016-03-04 17:39:35 1017

原创 Hadoop单机模式集群搭建

Hadoop单机模式集群搭建0、准备192.168.230.13主机，作为搭建hadoop单机模式的主机1、将压缩/安装文件上传到指定目录[root@node4 ~]# cd /opt/software[root@node4 software]# lltotal 723384-rw-r--r-- 1 root root 311430119 Feb 29 09:07 hadoop-2.5.0.t

2016-03-04 17:38:41 634

原创采用Lvs DR(直接路由)模式搭建集群

使用3台服务器搭建lvs DR模式集群192.168.230.10(前端调度服务器)DIP192.168.230.11(后台服务器)RIP192.168.230.12(后台服务器)RIP采用Lvs DR(直接路由)模式搭建集群Lvs DR(直接路由)模式引子：我们在使用nginx配置集群管理的时候，nginx会出现很多请求和响应都经过nginx，服务器集群会出现瓶颈的情况，需要使用LVS

2016-03-03 21:46:38 2518

原创 lvs+keepalived

Lvs + keepalived基本服务器宕机的主从切换配置1、准备192.168.230.10、192.168.230.13两台主机分别作为Lvs服务器 192.168.230.10 主Lvs服务器 192.168.230.13 备Lvs服务器2、两台nginx服务器,分别安装keepalived配置/etc/keepalived/keepalived.conf[root@node1 keepa

2016-03-03 17:48:04 518

HTML5游戏编写

空空如也