大数据
一只行走在闹市的猪
做一个有态度的人
展开
-
MapReduce的优化(MapShuffle的2个阶段、3个功能、2大优化)
MapReduce的shuffle 2个阶段: map端(phase)的shuffle reduce端(phase)的shuffle3个功能: 分区 – 决定mapTask的输出的数据 给 那个 reduce task处理 排序 – 至少经过3次排序 分组 – 将相同key的value放入一个集合中2大优化 map phas...原创 2018-07-02 10:59:11 · 519 阅读 · 0 评论 -
什么是nosql
NoSQL不仅仅是No SQL,还是Not only SQL CAP原则又称CAP定理,指的是在一个分布式系统中,Consistency(一致性)、 Availability(可用性)、Partition tolerance(分区容错性),三者不可得兼。 分类 Examples举例 典型应用场景 数据模型 优点 缺点 键值(key-value) ...原创 2018-07-03 19:41:47 · 19022 阅读 · 0 评论 -
列举网站分析的几大模块?每个模块常见的指标?每个指标字段含义,怎么得到,怎么分析?
统计的指标: PV(浏览次数): 即通常说的PV(PageView)值,用户每打开1个网站页面,记录1个PV。用户多次打开同一页面PV累计多次。 UV(独立访客): 1天(00:00-24:00)之内,访问网站的不重复用户数(以浏览器cookie为依据),一天内同一访客多次访问网站只被计算1次。 IP: 1天(00:00-24:00)之内,访问网站的不重复IP数。一天内相同I...原创 2018-07-05 20:07:06 · 1125 阅读 · 0 评论 -
图文:HBase工作原理详解
HBase架构组件 从物理结构上讲,HBase由三种类型的服务器构成主从式架构。Region Servers为数据的读取和写入提供服务。当访问数据时,客户端直接和Region Servers通信。Region的分配,DDL (create, delete tables)操作有HBase Master进程处理。Zookeeper是HDFS的一部分,维护着一个活动的集群。 Hadoop...转载 2018-07-20 12:01:13 · 3117 阅读 · 0 评论 -
数据仓库建设中的数据建模方法
https://www.ibm.com/developerworks/cn/data/library/techarticles/dm-0803zhousb/转载 2018-08-25 12:08:45 · 325 阅读 · 0 评论 -
Sqoop将SQLServer数据导入Hive表中
这里我使用的的CDH5.15.0对应的sqoop版本1.4.6java使用的是jdk1.8正常的安装配置完sqoop之后,并不能通过sqoop将SQLServer数据导入到Hive或HDFS中,还需要三个jar包。java-json.jar(http://www.java2s.com/Code/JarDownload/java-json/)sqljdbc42.jar(下载地址:ht...原创 2018-11-20 16:40:21 · 3401 阅读 · 0 评论 -
Failed with exception java.io.IOException:java.io.IOException: Malformed ORC file 。。。。。。
当用hive查询数据时报Failed with exception java.io.IOException:java.io.IOException: Malformed ORC file 。。。。。。哪怕是简单的查两条数据这是表的存储格式导致的用ORC格式,需先将数据导入textfile格式的临时表...原创 2018-11-20 14:09:15 · 5706 阅读 · 2 评论 -
【Hive】:java.lang.RuntimeException: Error creating a batch
Hive运行时报如下错误:Error: java.lang.RuntimeException: Error creating a batch at org.apache.hadoop.hive.ql.io.orc.VectorizedOrcInputFormat$VectorizedOrcRecordReader.createValue(VectorizedOrcInput...原创 2019-07-01 10:51:01 · 986 阅读 · 0 评论 -
什么是Hadoop
大数据框架按功能来划分海量数据存储: HDFS、Hive(本质存储数据还是HDFS)、Hbase、ES(ElasticSearch)海量数据分析 MapReduce、Spark、SQL最原始的Hadoop框架数据存储:HDFS(Hadoop Distributed File System)数据分析:MapReduceHadoop的起源Google的三篇论文 虽然Google...原创 2018-06-10 15:15:47 · 1830 阅读 · 0 评论 -
转:Google 大数据的三篇论文
Google File System,Hadoop的HDFS Google Bigtable,Hadoop的HDFS Google-MapReduce,Hadoop的MapReduceHadoop 1.0以前只有HDFS和MapReduce两个模块,1.0以后才增加了Common这个模块,2.0之后增加了Yarn这个模块...转载 2018-06-10 13:59:12 · 2007 阅读 · 0 评论 -
Hadoop安装配置之伪分布式安装
Hadoop伪分布式安装版本选择2.7.X,我选择的是2.7.3安装过程安装前准备 (1)上传解压 (2)查看目录结构(删除以下文件) bin/*.cmd sbin/*.cmd share/doc (3)修改3个模块的环境变量,修改JAVA_HOME的值为jdk的安装路径 hadoop-env.sh(23行) yarn-env.sh(26...原创 2018-06-12 14:28:50 · 286 阅读 · 5 评论 -
图文:以MapReduce编程五步走为基础,说MapReduce工作原理
在之前的Hadoop是什么中已经说过MapReduce采用了分而治之的思想,MapReduce主要分为两部分,一部分是Map——分,一部分是Reduce——合MapReduce全过程的数据都是以键值对的形式存在的首先,我们假设我们有一个文件,文件中存了以下内容 hive spark hive hbase hadoop hive spark sqoop ...原创 2018-06-13 21:27:33 · 3309 阅读 · 2 评论 -
MapReduce程序执行过程
Hadoop hive spark hive spark HBASE input -》默认从HDFS中读取数据 FileInputFormat -》将每一行转成keyvalue -》输出: <行偏移量,行内容> key value 0 Hadoop hive ...原创 2018-06-14 19:27:32 · 474 阅读 · 0 评论 -
代码:Java实现大数据经典案例WordCount
要求:统计文本中出现的单词数,并按数量降序、单词升序输出原创 2018-06-14 20:25:18 · 3583 阅读 · 3 评论 -
代码:MapReduce程序模板
MapReduce:public class MRDriver extends Configured implements Tool { @Override public int run(String[] args) throws Exception { //1.创建job Job job = Job.getInstance(this.ge...原创 2018-06-22 19:15:16 · 233 阅读 · 0 评论 -
CentOS 6.x 用yum安装mysql
查看安装:yum list mysql* 安装:sudo yum -y install mysql-server 设置免密登录:切到/etc下,在my.cnf最后追加skip-grant-tables sudo echo “skip-grant-tables” >> /etc/my.cnf 启动mysql服务:sudo service mysqld start 免密码登录:m...原创 2018-06-23 09:10:48 · 142 阅读 · 0 评论 -
shuffle的工作原理
shuffle实现的功能分区 决定当前key交给那个reducer进行处理 相同的key必须在一个reduce task中 默认:按照key的hashCode值对reduce的个数进行取余 如果是自定义分区,默认是对key进行分区,但是我们也可以根据value进行分区分组 将相同的key的value进行合并,key相同的话,会分到同一组 在m...原创 2018-06-15 20:25:24 · 1556 阅读 · 1 评论