![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
云计算+大数据
CrazyL-
记录学习点点滴滴,一次共勉
展开
-
用sqoop1写出个能用的mysql to hive脚本
hive的test库下新建表:Create table log(col1 bigint,col2 tinyint,col3 bigint) partitioned by (createDate string) row format delimited fields terminated by ‘\t’#!/bin/sh#取前一天日期,格式YYYYMMDDlastDay=`date "+%Y原创 2017-05-04 16:34:20 · 482 阅读 · 0 评论 -
sqoop介绍
一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。原创 2016-09-29 22:07:04 · 309 阅读 · 0 评论 -
storm大规模数据过滤利器
bloomfilterhttp://blog.csdn.net/jiaomeng/article/details/1495500 http://www.cnblogs.com/heaad/archive/2011/01/02/1924195.html转载 2017-02-27 16:32:38 · 1121 阅读 · 0 评论 -
storm消息分发策略
shuffle grouping:随机分组,随机派发stream里面的tuple,保证每个bolt接收到的tuple数相同 fields grouping:按字段分组,具有相同字段的会被分到相同的bolts all grouping:广播发送,每一个tuple,所有的bolts都会受到 global grouping:全局分组, non grouping:不分组,跟shuffle group原创 2016-08-14 12:02:39 · 629 阅读 · 0 评论 -
storm单机安装
下载storm地址根据需要的版本来进行下载wget http://apache.fayea.com/storm/apache-storm-0.9.6/apache-storm-0.8.2.tar.gz(见我的资源)修改storm配置文件storm.zookeeper.servers: - "ubuntu"# - "server2"# nimbus.host: "ubuntu"原创 2016-08-14 10:59:00 · 311 阅读 · 0 评论 -
storm介绍
个性化推荐系统,视频推荐,商品推荐等分布式 可扩展高可靠性 编程模型简单 高效实时storm是twitter开源的一个分布式实时计算系统 使用场景:数据的实时分析,持续计算,分布式RPC等 常用的类: BaseRichSpout(消息生产者) BaseRichBolt(消息处理者) TopologyBuilder(拓扑构建器) Values(将数据存放到Values,发生到下原创 2016-08-14 10:48:20 · 274 阅读 · 0 评论 -
MapReduce 例子
目的: 统计手机号在某个时间段的流量 流量分上行流量和下行流量jar包依赖<dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId> <version>2.2.0</version></dependency><dependency> <grou原创 2016-09-21 23:06:50 · 420 阅读 · 0 评论 -
MapReduce原理
MapReduce是一个分布式计算模型, google提出,主要用于搜索领域,解决海量数据的计算问题 MR由两个阶段组成:Map和Reduce,用户只需实现map()和reduce()两个函数,即可实现分布式计算,非常简单 这两个函数的形参是key、value对,表示函数的输入信息 hadoop1.x里面分jobtracker和tasktracker,2.x分resourcemanager和n原创 2016-07-09 22:27:14 · 308 阅读 · 0 评论 -
java操作hdfs
import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.FileOutputStream;import java.io.IOException;import java.io.InputStream;import java.io.OutputStream;import java.n原创 2016-07-09 15:37:42 · 377 阅读 · 0 评论 -
hdfs原理
元数据存储细节 文件名,副本数,分成的块数(分成了两块,说明文件大小在128M到256M之间),每块存在的主机namemode是整个文件系统的管理节点,维护整个文件系统的文件目录树,文件/目录的元数据信息,和每个文件对应的数据块列表。接受用户的操作请求。 文件包括: faimage:元数据镜像文件。存储某一时段namenode内存元数据信息 edits:操作日志文件 fstime:保存原创 2016-07-09 10:18:05 · 350 阅读 · 0 评论 -
hdfs的shell命令
列出hdfs上的文件 hadoop fs -ls -R (递归查看) hdfs://ubuntu:9000/ 可以简写为hadoop fs -ls /查看hdfs文件内容 hadoop fs -cat /xx从本地拷贝文件到hdfs hadoop fs -copyFromLocal /root/xxx(linux上文件) /(hdfs的根) 同-put命令从hdfs拷贝文件到本地原创 2016-07-09 09:32:08 · 877 阅读 · 0 评论 -
hbase 过滤器
使用过滤器可以提高操作表的效率,hbase中两种数据读取函数get()和scan()都支持过滤器,支持直接访问和通过制定起止行键来访问,但是缺少细粒度的筛选功能,如基于正则表达式对行健或值进行筛选的功能可以使用功能预定义号的过滤器或者是实现自定义过滤器 过滤器在客户端创建,通过rpc传送到服务器端,在服务器端执行过滤操作,把数据返回给客户端comparision filters比较过滤器原创 2016-08-29 22:17:57 · 503 阅读 · 0 评论 -
HBase Scanner扫描器
HBase在扫描数据的时候,使用scanner表扫描器 扫描器缓存 hbase.client.scanner.caching配置项可以设置hbasescanner一次从服务器端抓取的数据条数,默认情况下一次一条。通过将其设置成一个合理的值,可以减少scan过程中next()的开销时间,代价是scanner需要通过客户端的内存来维持这些被cache的行记录 三个地方可以配置: 在hbse的co原创 2016-08-29 22:05:05 · 3077 阅读 · 0 评论 -
Hbase API
java类 HbaseAdmin HbaseConfiguration org.apache.hadoop.hbase.HBaseConfiguration 用法示例: HBaseConfiguration hconfig = new HBaseConfiguration(); hconfig.set(“hbase.zookeeper.pr原创 2016-08-29 21:09:58 · 572 阅读 · 0 评论 -
hbase介绍
hbase是一个分布式的、多版本的、面向列的开源数据库 hbase利用hadoop hdfs作为其文件存储系统,提供高可靠性、高性能、列存储、可伸缩、实时读写、适用于非结构化数据存储的数据库系统 hbase利用hadoop mapreduce来处理hbase、中的海量数据 hbase利用zookeeper作为分布式系统服务特点: 数据量大:一个表可以有上亿行,上百万列(列多时,插入变慢)原创 2016-08-25 19:52:01 · 417 阅读 · 0 评论 -
hbase shell常用命令
创建表 create ‘表名称’, ‘列名称1’,’列名称2’,’列名称N’ create ‘student’,’name’,’address’添加记录 put ‘表名称’, ‘行名称’, ‘列名称:’, ‘值’ put ‘student’,’1’,’name’,’tom’ 查看记录 get ‘表名称’, ‘行名称’ get ‘student’,’1’查看表中的记录总数 coun原创 2016-07-07 16:18:01 · 353 阅读 · 0 评论 -
hbase安装流程
hadoop安装参考博客中hadoop安装教程官网下载hbase-0.94.27.tar.gz 解压 tar -zxvf hbase-0.94.27.tar.gz修改hbase配置: 环境hbase-env.sh: 新增:export JAVA_HOME=/app/jdk/jdk1.7 --JDK路径原创 2016-07-07 16:12:20 · 339 阅读 · 0 评论 -
hive jdbc连接
参考官方文档: https://cwiki.apache.org/confluence/display/Hive/HiveServer2+Clients#HiveServer2Clients-JDBC启动hiveserver2hive --service hiveserver2 --hiveconf hive.server2.thrift.port=10001 &jdbc连接import java原创 2017-05-05 14:37:34 · 2216 阅读 · 0 评论 -
hive HQL优化
在有限资源下,提高执行效率 常见问题: 数据倾斜, map数设置 reduce数设置hive执行,HQL>JOB>MAP/REDUCE 查看执行计划 explain 【extended】 hqlhive查询操作优化 join优化 hive.optimize.skewjoin=true;如果是join过程出现倾斜,应该设置为true set hive.skewjoin.key=100原创 2016-08-24 22:12:36 · 4728 阅读 · 0 评论 -
hive自定义函数
UDF:用户自定义函数 针对单条记录 创建函数: 自定义一个java类,继承UDF类,重写evaluate方法,打jar包,hive执行add jarimport org.apache.hadoop.hive.ql.exec.UDF;import org.apache.hadoop.io.Text;public class udftest extends UDF{ pub原创 2016-08-23 22:21:06 · 1026 阅读 · 0 评论 -
hive函数实例
1.and和or的优先级 and优先级大于orroot@ubuntu:~# cat windfunc 1001 100.0 ABC1001 150.0 BCD1001 200.0 CDE1001 150.0 DEF1002 200.0 ABC1002 200.0 ABC1002 100.0 BCD1002原创 2016-08-22 22:42:08 · 1830 阅读 · 0 评论 -
hive函数
内置函数: 简单函数,聚合函数,集合函数,特殊函数 自定义函数: UDF(map阶段),UDAF(reduce阶段)cli命令 show functions;desc function concat(函数名字);函数的描述信息hive> desc function concat;OKconcat(str1, str2, ... strN) - returns the concatena原创 2016-08-22 21:33:30 · 3295 阅读 · 0 评论 -
hive高级查询
查询操作 group by、order by、join、distribute by、sort by、cluster by、union all 底层的实现 mapreduce简单的聚合函数 count sum avg distinctorder by全局排序 order by 需要reduce操作,且只有一个reduce,与配置无关 如果数据量大的话,会很浪费资源order by过程原创 2016-08-19 19:42:02 · 1155 阅读 · 0 评论 -
hive表属性操作
修改表名alter table table_name rename to new_table_name修改列名alter table tablename change column c1 c2 int comment 'xxxx' after col(放在某列的后面)|first(放在第一列)增加列alter table tablename add columns(c1 string commen原创 2016-08-19 19:27:15 · 905 阅读 · 0 评论 -
hive动态分区
不需要为不同的分区添加不同的插入语句 分区不确定,需要从数据中获取 几个参数:set hive.exec.dynamic.partition=true//使用动态分区set hive.exec.dynamic.partition.mode=nonstrick//无限制模式,如果模式是strict,则必须有一个静态分区,切放在最前面set hive.exec.max.dynamic.parti原创 2016-08-19 19:01:20 · 1012 阅读 · 0 评论 -
hive导出数据
导出的方式 1.hadoop命令的方式,get、texthive> select * from student2;OKxiaoming 10xiaohong 12xiaoli 13xiaowang 11lucy 21lily 22Time taken: 1.064 seconds, Fetched: 6 row(s)hive> desc forma原创 2016-08-18 21:59:10 · 711 阅读 · 0 评论 -
hive加载数据
创建表时加载create table newtable as select col1,col2 from oldtable;创建表时指定数据位置create table tablename() location ''root@ubuntu:~# cat student1.txt xiaoming 10xiaohong 12xiaoli 13xiaowang 11root原创 2016-08-18 19:59:06 · 968 阅读 · 0 评论 -
hive使用变量
使用set设置变量hive> set name=lucy; hive> set name;name=lucyhive> select * from employee where name='${hiveconf:name}';Total jobs = 1Launching Job 1 out of 1Number of reduce tasks is set to 0 since the原创 2016-08-18 19:31:28 · 9860 阅读 · 0 评论 -
hive表操作
数据类型 基本数据类型 集合类型,array、map、struct 文件格式,textfile、sequencefile、rcfile创建表create table employee( name string comment 'name', salary float; subordinates array<string>, dedecutions map<str原创 2016-08-17 21:43:35 · 467 阅读 · 0 评论 -
hive常用命令
显示表头,当前终端有效set hive.cli.print.header=true;原创 2016-08-17 21:28:59 · 2514 阅读 · 0 评论 -
hive介绍与安装
hive:数据仓库 hive:解释器,编译器,优化器 hive运行时,元数据存储在关系型数据库里。默认的是自带的derby数据库,不建议使用。 配置使用mysql存储元数据方法: 1.上传mysql-connector-java-5.1.9.jar至hive/lib目录下 2.如果是远程登录mysql,参考博文:设置客户端登陆阿里云主机上的mysql grant all on . to原创 2016-07-07 22:51:13 · 339 阅读 · 0 评论 -
flume集群搭建
数据采集端: source:使用spooldir扫描文件获取资源 channel:memory sink:avro sink数据接收端: source:avro sink channel:memory sink:logger sink参考: http://www.xuebuyuan.com/2142003.html最近使用Flume1.4 做日志收集,分享一下具体的集群环境配置搭建。其转载 2016-07-02 09:55:36 · 780 阅读 · 0 评论 -
flume-ng demo单机配置详解
http://rjhym.blog.163.com/blog/static/28130232201263042013972/https://cwiki.apache.org/confluence/display/FLUME/Getting+Started# example.conf: A single-node Flume configuration# Name the components on翻译 2016-07-02 09:44:52 · 616 阅读 · 0 评论 -
flume入门
flume是一个分布式、可靠、高可用的海量日志聚合系统,支持在系统中定制各类发送方,用于收集数据;同时,flume提供对数据的简单处理,并写道各种数据接收方的能力 flume在0.9.x和1.x之间有较大的调整,1.x版本后改为flumeNG,0.9.x称为flumeOG 运行flume时,机器必须安装jdk6.0以上的版本,只有linux下的启动脚本flumeOG flume主要由三个部分原创 2016-07-01 23:23:14 · 484 阅读 · 0 评论 -
源码安装OpenStack Swift
文章目录依赖安装Swift CLI(python-Swiftclient)安装Swift复制swift配置文件配置swift向swift中添加驱动器发现驱动器依赖在CentOS 6中可能在安装依赖前先安装EPEL库 rpm -Uvh http://dl.fedoraproject.org/pub/epel/6/x86_64/epel-release-6-8.noarch.rpm有可能要安...原创 2019-09-10 18:21:09 · 483 阅读 · 0 评论 -
Swift API概述
文章目录CAP定理CAP定理一致性(Consistency) (等同于所有节点访问同一份最新的数据副本)可用性(Availability)(每次请求都能获取到非错的响应——但是不保证获取的数据为最新数据)分区容错性(Partition tolerance)(以实际效果而言,分区相当于对通信的时限要求。系统如果不能在时限内达成数据一致性,就意味着发生了分区的情况,必须就当前操作在C和A之间...原创 2019-09-09 16:05:29 · 755 阅读 · 0 评论 -
Swift基础
文章目录与集群交谈:Swift API发送请求存储URL身份验证HTTP动词授权和采取行动获取响应通信工具命令行界面使用cURL使用swift自定义客户端应用程序与集群交谈:Swift API对于每个请求,Swift在处理请求和响应之前会去检查是谁发出的请求,是否是授权的请求。只有代理服务进程实现了Swift的API,使用HTTP语言与外部进行通信并且监听HTTP请求。发送请求包含以下部分...原创 2019-09-09 11:09:48 · 131 阅读 · 0 评论 -
Swift定位数据
文章目录环基础:哈希函数环基础:一致性哈希环环文件:修改后的一致性哈希环分区分区幂指数(Partition power)副本数(Replica count)副本锁(Replica locks)数据分发(Distribution of Data)当一个节点上的进程需要去寻找一个账户、容器或对象的数据时,先去查找环(ring)的本地副本,环文件包括账户环文件、容器环文件、对象环文件。Swift为每一...原创 2019-09-09 10:32:14 · 232 阅读 · 0 评论 -
Swift数据模型和体系结构
文章目录Swift数据模型账户容器对象Swift体系结构域区节点存储策略服务进程代理层账户层容器层对象层一致性进程审计器(Auditor)复制器(Replicator)账户收割器(Account reaper)容器更新器和对象更新器(Container and object updaters)对象过期器(Object expirer)Swift数据模型OpenStack Swift允许用户存储...原创 2019-09-08 17:36:54 · 5084 阅读 · 0 评论 -
初识Swift
Swift是一个多租户、高扩展性和高可用性的对象存储系统,用于低成本地存储大量非结构化数据,例如文档、网页内容、备份、图片和虚拟机镜像等。2010年作为RackSpace云文件的引擎被开发出来。后来,成为了OpenStack的一部分。Swift不是传统的文件系统或裸块设备,可以让你通过Restful HTTP API来存储、获取和删除容器中的对象及其元数据。开发者可以直接使用Swift API或...原创 2019-09-08 10:18:49 · 174 阅读 · 0 评论