大数据
As a layman
这个作者很懒,什么都没留下…
展开
-
SparkStreaming
storm和 SparkStreaming的区别Storm 是纯实时处理数据, SparkStreaming 微批处理数据,可以通过控制间隔时间做到实时处理.sparkStreaming 相对于storm来说,吞吐量大storm擅长处理简单的汇总型业务,sparkStreaming擅长处理复杂业务,storm相对于sparkStreaming来说轻量级,SparkStreaming中可以使用...原创 2019-12-31 15:34:29 · 329 阅读 · 0 评论 -
spark UDF,UDAF
UDF: user defined function原创 2019-12-31 10:27:16 · 140 阅读 · 0 评论 -
spark
Spark什么是SparkApache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行计算框架,Spark拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写...原创 2019-12-24 17:23:59 · 215 阅读 · 0 评论 -
Storm
stormstorm 是个实时的,分布式以及具备高容错的计算框架storm进程常驻内存storm数据不经过磁盘,在内存中处理官网架构:Nimbus 主节点Supervisor 从节点Worker 从节点上工作进程###编程模型:spout + boltDAG·有向无环图对于Storm实时计算逻辑的封装即,由一系列通过数据流相互关联的Spout、Bolt...原创 2019-12-14 12:44:41 · 164 阅读 · 0 评论 -
Hbase
hbase简介hbase 是非关系型数据库hadoop database 是一个高可用,高性能,面向列的kv键值对,可伸缩,实时读写的分布式数据库利用hadoop hdfs 作为其文件存储系统,系统hadoop mapreduce 来处理hbase中海量数据,利用zookeeper作为其分布式协同服务主要用来存储非结构化和半结构化的松散数据(列存 nosql数据库)与传统数据...原创 2019-12-12 14:43:39 · 166 阅读 · 0 评论 -
hive(2)
hive 参数hive 参数, 变量hive当中的参数,变量,都是以命名空间开头的通过 ${}方式进行引用,其中system,env 下的变量必须以前缀开头hive参数hive 参数设置方式1 修改配置文件 ${HIVE_HOME}/conf/hive-site.xml2 启动 hive cli 时,通过 --hiveconf key=vlaue的方式进行设置例如:hiv...原创 2019-12-11 12:41:28 · 351 阅读 · 0 评论 -
hive 实现 wc
实现hive 中的 word count我们的原始数据hello world hihi hell hadoophive hbase sparkhello hi将数据上传到 hdfs 中 /usr/ 目录下hdfs dfs -put wc /usr/hive中创建外部表读取上面数据create external table wc(line string) locati...原创 2019-12-10 16:47:46 · 258 阅读 · 0 评论 -
Python 进行 hadoop MapReduce操作
单词统计 WordCount制作一个mapReduce操作需要一个map.py 和 reduce.pymap.pyimport sysfor line in sys.stdin: line_words = line.strip().split(' ') for word in line_words: print '%s\t1'%(word.strip())reduce.py...原创 2019-12-10 13:56:08 · 319 阅读 · 0 评论 -
Hive
mapreduce的核心思想:分而治之大数据的趋势:平台化,可视化hive的简介hive的产生非java编程者对hdfs的数据做MapReduce操作hive简介hive :数据仓库:ETL: 是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用...原创 2019-11-20 19:44:18 · 314 阅读 · 0 评论 -
TF-IDF
TF-IDF :term frequency-inverse document frequency一种用于咨询检索与资讯勘测的常用加权技术是一种统计方法,用以评估一个字词对于一个文件集或者一个语料库中的其中一份文件的重要程度字词的重要性随着它在文件中出现的次数成正比增加但同时会随着它在语料库中出现的频率成反比下降加权的各种形式常备搜索引擎应用作为文件与用户查询之间相关程度的度...原创 2019-11-13 15:38:39 · 185 阅读 · 0 评论 -
PageRank 计算
什么是pagerankpagerank是谷歌提出的算法,用来衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度pagerank实现了将 链接价值概念作为排名因素算法理解:入链 : 投票让链接来投票,到一个网页的超链接相当于对这个网页投了一票入链数量:如果一个页面节点接收到的其他网页指向的入链数量越多,那么这个网页越重要入链质量:指向页面A的入链质量不同,...原创 2019-11-13 00:16:38 · 1131 阅读 · 0 评论 -
《Hadoop技术内幕深入解析YARN架构设计与原理》读书笔记(1)
《Hadoop技术内幕深入解析YARN架构设计与原理》读书笔记 (1)第二章:YARN的设计理念和基本架构由于 mrv1 在扩展性,可靠性,资源利用和多框架等方面存在明显的不足,诞生了新的MapReduce,由于mrv2将资源管理模块构建成了一个独立的通用系统YARN。2.1 YARN产生背景mrv1的局限性:扩展性差可靠性差 master/slave结构,master单点故障问...原创 2019-11-03 22:34:23 · 436 阅读 · 0 评论 -
MapReduce 原理
splitsplit 数量: 依赖于block 大小。一般情况下于block 大小相对应1:1splits —》 filesplit 【start , size, blocklocations…】filesplit 放在list 中 -》 将list 变为数组 ,这个数组长度就是map的数量mapmapin -> maptask -> run 方法 -> mapper…...原创 2019-11-03 21:33:28 · 225 阅读 · 0 评论 -
hadoop MapReduce
MapReduceMR : map + reduce输入(格式化k,v)数据集 -》 map映射成 一个中间数据集(k,v)-》reduce(sql)相同的key 为一组,调用一次reduce方法,方法内迭代这一组数据进行计算(类似的sql)-排序+ 比较遍历计算各种维度花销,音乐,其他...原创 2019-10-30 23:22:20 · 261 阅读 · 0 评论 -
Hadoop 2.6.5 hdfs 高可用搭建
Hadoop 2.0 产生背景Hadoop1.0中的HDFS和MapReduce在高可用,扩展性等方面存在问题HDFS存在两个问题:NameNode单点故障,难以应用于在线场景 HANameNode压力过大,且内存受限,影响扩展性 FMapReduce 存在的问题响系统JobTracker访问压力大,影响系统扩展性难以支持除MapReduce之外的计算框架,比如 Spark...原创 2019-10-15 23:38:37 · 245 阅读 · 0 评论 -
Hadoop
Hadoop简介Hadoop 的思想之源:Google 第一遇到大数据计算问题的公司Openstack :NASA面对的数据和计算难题- 大量的网页怎么存储- 搜索算法带给我们的关键技术和思想(Google三大理论)- GFS 文件存储- Map-Reduce 计算- Bigtable创始人:Doug cuttingHadoop简介:http://hadoop.ap...原创 2019-09-18 23:15:42 · 84825 阅读 · 2 评论
分享