大数据
weixin_36607803
这个作者很懒,什么都没留下…
展开
-
hive练习数据
create table student(Sno int,Sname string,Sex string,Sage int,Sdept string)row format delimited fields terminated by ','stored as textfile;create table course(Cno int,Cname string) row format delimi原创 2016-12-02 12:06:49 · 653 阅读 · 0 评论 -
搭建 Hadoop2.7.2 + Spark1.6环境
服务器上已经有了 hadoop2.7.2环境,这次只用配置spark1.6就可以。服务器操作系统为centOS6.51、安装Scala 下载地址:http://www.scala-lang.org/download/ 注:我下载的是scala-2.11.8.tgz将压缩上传至/usr/local 目录 解压缩tar -zxvf scal转载 2016-11-20 15:17:17 · 435 阅读 · 0 评论 -
阿里云ODPS(现名MaxCompute,原名ODPS)介绍
什么是ODPS(一)阿里云开放数据处理服务(Open Data Processing Service,简称ODPS) 是构建在飞天系统上的大规模分布式数据处理服务。ODPS以REST API的形式,支持用户提交类SQL的查询语言,对海量数据进行处理。在API之上,还提供SDK开发包和命令行工具,Aliyun.com上还有一个Web演示界面。什么是ODPS(二)与传统数据仓库工具相比转载 2016-11-22 21:42:24 · 9265 阅读 · 0 评论 -
在Spark集群中,集群的节点个数、RDD分区个数、cpu内核个数三者与并行度的关系??
作者:Mr Rex链接:https://www.zhihu.com/question/33270495/answer/88953826来源:知乎著作权归作者所有,转载请联系作者获得授权。图来自官方 Cluster Mode OverviewSpark集群的节点个数为集群的机器的数量。一个机器上有几个worker,一个woker可以申请多少core是可配置的。一个常用的配转载 2016-11-18 11:30:02 · 2482 阅读 · 0 评论 -
HA集群环境下的Hbase的集群搭建
由于本人hadoop环境是HA,在此基础上搭建Hbase集群时遇到HRegionServer启动后莫名挂掉的情况,现对搭建过程做下记录:服务器环境为自己电脑的三台虚拟机:hadoop01 hadoop02 hadoop031.下载并解压hbase,此处是hbase-1.1.7-bin.tar.gz2. 配置hbase-env.sh,把Java环境变量告诉HBase,并配置Zoo原创 2016-12-08 14:33:51 · 390 阅读 · 0 评论 -
spark与storm的对比
对比点StormSpark Streaming实时计算模型纯实时,来一条数据,处理一条数据准实时,对一个时间段内的数据收集起来,作为一个RDD,再处理实时计算延迟度毫秒级秒级吞吐量低高事务机制支持完善转载 2016-12-15 10:45:55 · 292 阅读 · 0 评论 -
阿里云ODPS使用总结
从阿里云官网下载ODPS的客户端odpscmd_public.zip,该客户端在linux和windows环境上都可用。进入该客户端的配置文件odps_client/conf/odps_config.ini ,进行配置,主要配置前三项:project_name=XXXXXXaccess_id=XXXXXXaccess_key=XXXXXXend_point=http://s原创 2016-11-22 22:14:09 · 12678 阅读 · 0 评论 -
Spark工作笔记
package bd.export.ent;import java.io.BufferedWriter;import java.io.FileNotFoundException;import java.io.FileWriter;import java.io.IOException;import java.text.ParseException;import jav原创 2017-06-02 11:27:11 · 918 阅读 · 0 评论 -
深入学习HBase架构原理
https://www.cnblogs.com/qiaoyihang/p/6246424.html转载 2017-12-21 15:34:07 · 297 阅读 · 0 评论 -
spark使用案例
package com.jianfeitech.bd.mod.spark.query.export.publicsecurity;import java.io.Serializable;import java.util.HashMap;import java.util.Map;import org.apache.spark.SparkContext;import org原创 2016-11-24 10:42:28 · 564 阅读 · 0 评论 -
Hadoop-Mapreduc知识点汇总
Linux命令汇总:hadoop辅助yarn运行mapreduce程序命令:hadoop jar 包名 主类名 读取文件名 输出目录查看文件权限:ls -la修改文件权限:chmod 600(755、777) 文件名修该属主:(root权限下)chown (-R、*) 用户名1:用户名2 (其中-R表示递归、*表示所有文件文件夹)原创 2016-12-02 11:57:27 · 644 阅读 · 0 评论 -
Zookeeper-HA-配置文件(详解)及启动步骤
参考:http://www.open-open.com/lib/view/open1436855630959.html集群部署节点角色的规划(3节点)server01 namenode resourcemanager zkfc nodemanager datanode zookeeper journal nodeserver02 namenode r原创 2016-12-02 12:03:53 · 2265 阅读 · 0 评论 -
hive练习
查询全体学生的学号与姓名 hive> select Sno,Sname from student;查询选修了课程的学生姓名 hive> select distinct Sname from student inner join sc on student.Sno=Sc.Sno;----hive的group by 和集合函数查询学生的总人数 hi原创 2016-12-02 12:05:36 · 687 阅读 · 0 评论 -
Zookeeper-HA-配置文件(配置粘贴)
core-site.xmlfs.defaultFShdfs://ns1/ hadoop.tmp.dir/home/hadoop/hadoop-2.7.1/hadoopdata ha.zookeeper.quorum hadoop-01-server:2181,hadoop-原创 2016-12-02 12:03:09 · 250 阅读 · 0 评论 -
Storm-知识点汇总
Storm是一个免费开源、分布式、高容错的实时计算系统。Storm令持续不断的流计算变得容易,弥补了Hadoop批处理所不能满足的实时要求。Storm经常用于在实时分析、在线机器学习、持续计算、分布式远程调用和ETL等领域。Storm的部署管理非常简单,而且,在同类的流式计算工具,Storm的性能也是非常出众的。 Storm主要分为两种组件Nimbus和Supervisor。这两原创 2016-12-02 12:02:23 · 630 阅读 · 0 评论 -
Hive知识点总结
Linux命令汇总:tar -zxvf *.tar.gz -C /test ----将*.tar.gz解压到/test下rpm -ivh MySQL-server-5.1.73-1.glibc23.i386.rpm ----安装*.rpmuname -a ---查看本机信息Hive的引入:1、hive是一个将sql语句转换成mapreduce程序的工具,不需原创 2016-12-02 11:58:56 · 365 阅读 · 0 评论 -
sqoop笔记-new
Linux、Hadoop命令汇总:netstat -nltp | grep 3306 查看端口3306的占用情况sqoop的使用----sqoop是一个用来在hadoop体系和关系型数据库之间进行数据互导的工具----实质就是将导入导出命令转换成mapreduce程序来实现sqoop安装:sqoop和hive一样只是一个工具,哪用哪安装,安装在一台节点上就可以原创 2016-12-02 12:01:55 · 236 阅读 · 0 评论 -
MRwordCount
mapreduce代码部分:wordcount新建工程,导入jar包:C:\hadoop-2.7.1\share\hadoop\common (公共jar包):hadoop-common-2.7.1、C:\hadoop-2.7.1\share\hadoop\common\lib下所有C:\hadoop-2.7.1\share\hadoop\hdfs (hdfs部分jar包):原创 2016-12-02 12:01:27 · 316 阅读 · 0 评论 -
Hadoop-ZooKeeper知识点汇总
相关Linux命令总结:echo ${JAVA_HOME} 显示出jdk的安装目录echo 2 > myid 把2写到myid文件(覆盖原内容)cat myid 查看myid文件的内容zkServer.sh start 启动zookeeperzkServer.sh status 查看zookeeper的启动状态netstat -n原创 2016-12-02 11:58:05 · 267 阅读 · 0 评论 -
Hive sql面试笔记
Hive sql面试,教训惨痛,特此记录select store,count(distinct uid) as uv from Visit group by store;select * from Users order by age desc, total;select stage_someone, count(distinct UID) from LifeStage lateral ...原创 2018-03-12 17:51:46 · 5190 阅读 · 0 评论