- 博客(21)
- 收藏
- 关注
转载 Spark
Spark学习简介什么是SparkSpark和MR比较Spark运行方式RDDRDD的五大特性哪里体现RDD的弹性(容错)?哪里体现RDD的分布式?Spark代码流程算子转换算子Transformations行动算子Action触发执行控制算子(做持久化)简介什么是SparkSpark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark和MR比较Spark 一般速度比MR快...
2019-04-19 08:46:36 450
转载 Scala
Scala学习Scala介绍Scala安装使用Scala基础Scala函数Scala字符串集合数组listsetmap元组trait 特性模式匹配match样例类(case classes)Scala介绍Spark中使用的是Sacla2.11。Scala官网6个特征。Java和scala可以混编类型推测(自动推测类型)并发和分布式(Actor)特质,特征(类似java中inte...
2019-04-19 08:46:21 148
转载 redis
redis学习一、 Redis 简介Redis 是一个开源(BSD 许可)的,内存中的数据结构存储系统,它可以用作数据库、缓存和消息中间件。拥有丰富的支持主流语言的客户端,C、C++、Python、Erlang、R、C#、Java、PHP、ObjectiveC、Perl、Ruby、Scala、Go、JavaScript。二、Redis 特点2.1 数据结构丰富Redis 虽然也是键值...
2019-04-19 08:45:54 207
转载 kafka
kafka学习Kafka简介模型概念理解消费者组Kafka 的使用场景:Kafka 集群部署集群规划:Zookeeper 集群准备安装 Kafka启动 Kafka 集群测试Kafka 数据一致性之 ISR 机制简介关于消息同步API生产者消费者Kafka 数据丢失和重复消费问题数据丢失数据重复消费Kafka 高吞吐的本质页缓存技术 + 磁盘顺序写零拷贝技术Kafka 消息的持久化Flume &am...
2019-04-19 08:45:42 242
转载 Lucene
Lucene学习Lucene 简介深入 luceneLucene 简介Lucene 是什么Lucene 是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎。说到底它是一个信息检索程序库,而不是应用产品。因此它并不像百度或者 google 那样,拿来就能用,它只是提供了一种工具让你能实现这些产品。...
2019-04-19 08:45:17 107
转载 Hadoop-----Hbase(包含优化)
Hadoop-----Hbase学习简介Hbase 数据模型Hbase 体系架构Hbase 安装部署Hbase Shell && API简介HBase-Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库。在Hadoop生态圈中,它是其中一部分且利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来...
2019-04-19 08:45:04 155
转载 Linux
大数据学习记录欢迎阅读我的大数据学习记录19.03.04欢迎阅读我的大数据学习记录这是我毕业后第二次参加的正规学习,本人非常重视,所有的内容主要针对自己而写,如果对你能有所帮助,那是我很高兴的;如果有不足也请指出,非常感谢!19.03.04第一天主要是虚拟机安装和linux的一些常用命令学习:安装VMware虚拟机;设置bioss 开启虚拟机(intel virtual tech...
2019-04-19 08:44:49 155
转载 Sqoop
Sqoop学习什么是Sqoopsqoop1架构安装导入/导出工具导入导出操作将MySQL中的数据导入到HDFS/Hive/Hbase使用Sqoop将HDFS/Hive/HBase中的数据导出到MySQLSqoop增量导入Sqoop job定时任务什么是Sqoop它是将关系数据库(oracle、mysql、postgresql等)数hadoop数据进行转换的工具。版本:(两个版本完全不兼容,s...
2019-04-19 08:44:36 149
转载 Hadoop----Hive
Hadoop-----Hive学习Hive及数据仓库简介数据处理分类hive如何执行Operator操作ANTLR词法语法分析工具解析hqlHive架构原理Hive搭建三种模式HQL详解创建/删除/修改/使用数据库创建/删除/表(*)修改表,更新,删除数据(这些很少用)DML语句四种插入/导入数据(重要)查询数据并保存备份数据或还原数据Hive的group by\join(left join ri...
2019-04-19 08:44:22 212
转载 Flume
Flume学习flume简介Flume组织架构Flume的特性Flume安装及使用安装使用Source、Channel、Sink有哪些类型相关案例flume简介Flume是一个分布式、可扩展、可靠、高可用的海量日志有效聚合及移动的框架。Flume组织架构0.9X组织架构1.0X的组织架构Agent将数据源的数据发送给collectorAgent由source、chann...
2019-04-19 08:44:09 176
转载 Hadoop2.0(HA高可用、YARN)
Hadoop2.0学习Hadoop2.0 产生背景Hadoop2.0 分支构成HDFS 2.0 HA高可用结构(重要)Federation 联邦(了解下就可以了)YARN(重要)MapReduce On YARN(暂时了解,后面要回头看)Hadoop2.X 集群搭建(重要)Hadoop2.0 产生背景HDFS存在的问题:Hadoop1.0 单点故障问题(主从关系,如果NameNode节...
2019-04-19 08:43:56 443
转载 Hadoop分布式———分布式存储系统HDFS
Hadoop学习Hadoop分布式分布式文件存储系统HDFS优缺点HDFS架构图:HDFS 数据存储模型 blocknameNode(NN)secondaryNameNode(SNN)SecondaryNameNode SNN合并流程DataNode(DN)Block的副本放置策略HDFS读文件过程HDFS写文件过程HDFS文件权限和安全模式完全分布式搭建Hadoop分布式将一个庞大的数据或复...
2019-04-19 08:43:31 1091
转载 Hadoop——分布式计算框架MapReduce
MapReduce学习设计理念计算框架Split 大小规则map个数reduce个数shuffleMR架构MapReduce是一种分布式的离线计算框架,是一种编程模型,用于大规模数据集(大于1TB)的并行运算。将自己的程序运行在分布式系统上。概念是:"Map(射)“和"Reduce(归约)”。设计理念“分与合”,移动计算不是移动数据。自己理解:各自服务器上取片将数据来映射成map,shuffl...
2019-04-19 08:43:02 214
转载 Cdh集群安装
Cdh集群安装cdh 简介cdh和Apache Hadoop比较部署1.基础配置2.CM配置3.CDH5安装cdh 简介Cloudera’s Distribution, including Apache Hadoop是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建,提供了Hadoop的核心(可扩展存储分布式计算)cdh和Apache Had...
2019-04-19 08:42:27 651
转载 利用Session防止表单重复提交
在服务器端生成一个唯一的随机标识号,专业术语称为Token(令牌),同时在当前用户的Session域中保存这个Token。然后将Token发送到客户端的Form表单中,在Form表单中使用隐藏域来存储这个Token,表单提交的时候连同这个Token一起提交到服务器端,然后在服务器端判断客户端提交上来的Token与服务器端生成的Token是否一致,如果不一致,那就是重复提交了,此时服务器端就可以不处...
2019-04-19 08:41:41 82
转载 ZooKeeper典型应用场景
ZooKeeper典型应用场景1. 数据发布与订阅(配置中心)2. 负载均衡3. 命名服务(Naming Service)4.分布式通知/协调5. 集群管理与Master选举6. 分布式锁7. 分布式队列原文地址:http://jm-blog.aliapp.com/?p=12321. 数据发布与订阅(配置中心)发布与订阅模型,即所谓的配置中心,顾名思义就是发布者将数据发布到ZK节点上,供...
2019-04-19 08:40:44 97
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人