大数据分布式开发
initializeliu
这个作者很懒,什么都没留下…
展开
-
Spark1
Hadoop历史2003,2004 Google2篇论文2011年发布1.0版本2012年发布稳定版2013年发布2.x版本(Yarn)原创 2019-12-01 16:17:57 · 128 阅读 · 0 评论 -
Sqoop
文章目录Sqoop简介sqoop安装数据的导入与导出将mysql的表导入 hdfs将mysql的表导入 hive将mysql的表的增量数据导入 hdfs将hdfs的文件数据导出到mysqlSqoop简介sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。本质上是mapreduce程序,负责hdfs和关系型数据库之间的数据传输(数据仓库中那些经过ETC的数据...原创 2019-07-25 22:10:48 · 188 阅读 · 0 评论 -
Flume
文章目录概述Flume定义概述Flume定义Flume是Cloudera提供的一个高可用的,高可靠,分布式的海量日志采集,聚合和传输的系统。Flume基于流式框架,灵活简单。...转载 2019-07-21 12:45:00 · 325 阅读 · 0 评论 -
HBase
文章目录HBase各数据库中的差别比较Hive特点普通数据库(sql/nosql)什么是HBaseHBASE相比于其他nosql数据库(mongodb、redis、cassendra、hazelcast)的特点HBase安装流程HBase各数据库中的差别比较Hive特点1.Hive是数据仓库,Hive是基于Hdfs强大的存储能力,保证了可存储的数据量非常大,数据存储的文件为普通的文件;...转载 2019-07-20 13:36:17 · 154 阅读 · 0 评论 -
Hive
文章目录HiveHIVE是什么?HIVE的用途?安装mysql数据库卸载mysql安装mysqlHIVE的使用方式?本地交互式查询(一)将hive启动为一个服务(二)beeline配置远程连接将hive作为命令运行(三)可以将hive作为命令一次性运行:可以将较长语句写入一个xxx.sh脚本中HIVE的DDL语法建库建内部表建外部表删除表导入数据建分区表插入数据到指定分区HIVE的DMLHIVE的...原创 2019-07-18 14:32:53 · 419 阅读 · 0 评论 -
Hadoop01
文章目录大数据基本概念 在互联网技术发展到现今阶段,大量日常、工作等事务产生的数据都已经信息化,人类产生的数据量相比以前有了爆炸式的增长,以前的传统的数据处理技术已经无法胜任,需求催生技术,一套用来处理海量数据的软件工具应运而生,这就是大数据!处理海量数据的核心技术:海量数据存储:分布式海量数据运算:分布式这些核心技术的实现是不需要用...原创 2019-07-07 09:06:20 · 241 阅读 · 0 评论 -
zookeeper
zookeeper数据存储形式zookeeper中对用户的数据采用kv形式存储,只是zk有点特别:key:是以路径的形式表示的,那就以为着,各key之间有父子关系,比如/ 是顶层key用户建的key只能在/ 下作为子节点,比如建一个key: /aa 这个key可以带value数据也可以建一个key: /bb也可以建key: /aa/xxzookeeper中,对每一个数据key...原创 2019-07-15 17:16:06 · 393 阅读 · 0 评论 -
Hadoop05
文章目录hadoop集群搭建hadoop集群搭建hadoop2.0已经发布了稳定版本了,增加了很多特性,比如HDFS HA、YARN等。最新的hadoop-2.6.4又增加了YARN HA注意:apache提供的hadoop-2.6.4的安装包是在32位操作系统编译的,因为hadoop依赖一些C++的本地库,所以如果在64位的操作上安装hadoop-2.6.4就需要重新在64操作系统上重新编...原创 2019-07-15 16:56:14 · 104 阅读 · 0 评论 -
Hadoop02
文章目录原创 2019-07-10 17:53:44 · 160 阅读 · 0 评论 -
Hadoo06
文章目录ETC模拟ETC流程ETC模拟ETC流程0.Flume采集1.将数据通过Flume从指定位置采集到hdfs(/app-log-data/data/2019-07-*);2.将mr程序打成jar备用,package com.initialize;import com.alibaba.fastjson.JSON;import com.alibaba.fastjson.JS...原创 2019-07-22 19:38:27 · 142 阅读 · 0 评论 -
ElasticSearch
文章目录Lucene简介工作流程示意图Lucene的Lucene的查询总结Lucene简介Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎。Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中...原创 2019-07-26 18:57:40 · 255 阅读 · 0 评论 -
Nginx
文章目录NginxNginx相关概念反向代理负载均衡安装下载nginx上传并解压nginx编译nginx检查安装环境编译安装配置nginx配置反向代理负载均衡NginxNginx相关概念反向代理反向代理(Reverse Proxy)方式是指以代理服务器来接受internet上的连接请求,然后将请求转发给内部网络上的服务器,并将从服务器上得到的结果返回给internet上请求连接的客户端,此...原创 2019-07-27 11:26:37 · 75 阅读 · 0 评论 -
摩拜单车项目06-mongo集群-mysql集群
保修与骑行模块mongo集群搭建mysql集群搭建原创 2019-08-19 01:18:09 · 217 阅读 · 0 评论 -
摩拜单车项目05-Redis集群
文章目录业务业务原创 2019-08-18 08:30:56 · 207 阅读 · 0 评论 -
摩拜单车项目01
文章目录相关的技术相关的技术1.微信小程序开发()2.springboot后台管理()3.mysql(集群)()4.mongdb(集群)()5.redis(集群)()6.Elasticsearch(实时查找和数据分析)()7.Spark(Spark core, SQL,streaming)()8.Nginx(负载均衡)()...原创 2019-08-12 19:25:18 · 543 阅读 · 0 评论 -
广告推销01
文章目录DSP原理图DSP原理图DSP:各各广告主的代理商,帮助广告主投放广告,也是一个Web平台,可以存储广告主的诉求信息(目标用户画像)。流程解析:1.当用户打开APP,APP会发送一条请求到Ad Exchange(广告交易平台),请求中携带有用户相关信息(userId);2.一个Ad Exchange平台与多个DSP平台合作,Ad Exchange接收到APP的请求后,将用户信息...原创 2019-08-20 09:51:46 · 228 阅读 · 0 评论 -
项目01
文章目录交通管理项目交通管理项目原创 2019-08-23 16:11:16 · 224 阅读 · 0 评论 -
摩拜单车项目04-Flume
文章目录FlumeFlume原创 2019-08-15 08:33:26 · 126 阅读 · 0 评论 -
摩拜单车项目03--Nginx
文章目录Nginx简介安装配置负载均衡安装kafka插件微信小程序对接nginx-kafkaNginx简介安装配置负载均衡安装kafka插件微信小程序对接nginx-kafka原创 2019-08-14 09:16:06 · 306 阅读 · 0 评论 -
摩拜单车项目02--MongoDB
文章目录MongoMongo原创 2019-08-13 19:17:29 · 629 阅读 · 0 评论 -
Hadoop04
文章目录mr编程案例-文档索引创建-输入切片maptask与输入切片关系示意图倒排索引案例订单topnmr编程案例-文档索引创建-输入切片maptask与输入切片关系示意图倒排索引案例目的:统计单词在每个文件中出现的次数测试数据hello tomhello jimhello kittyhello rosehello jerryhello jimhello kittyhe...原创 2019-07-14 10:34:59 · 87 阅读 · 0 评论 -
Hadoop03
文章目录原创 2019-07-12 22:11:33 · 117 阅读 · 0 评论 -
Spark_01
Spark相关介绍Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因...原创 2019-05-25 13:50:48 · 99 阅读 · 0 评论 -
Spark_02
文章目录RDD简介RDD简介原创 2019-08-03 13:13:38 · 237 阅读 · 0 评论 -
Spark_10
文章目录Redis介绍SparkStreaming程序计算多个指标spark-on-yarnRedis介绍百度百科:Redis是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API。redis是一个key-value存储系统。安装1.下载redis3的稳定版本,下载地址http://download.redis.io/...原创 2019-06-16 10:18:45 · 106 阅读 · 0 评论 -
Spark_07
文章目录回顾Spark SQL的join自定义聚合函数Dataset回顾线程安全问题的起因:静态类或公用的对象中成员变量进行更改。about:DataFrameDataFrame也是一个分布式数据集,是一个描述,不没有真正的数据。类似于RDD。再执行前会对程序进行优化。创建方法1:先生成RDD,通过RDD的toDF()将RDD变成DataFrame,2:通过SparkSession对象...原创 2019-06-04 11:55:55 · 129 阅读 · 0 评论 -
Spark_09
文章目录kafka分区相管知识Spark Streaming原理简介DStream介绍关于nc介绍SparkStreaming整合kafkakafka分区相管知识Spark Streaming原理简介DStream介绍DStream是SparkStream中一个高级的抽象(对RDD的封装)。关于nc介绍案例package day9import org.apache.spark...原创 2019-06-14 21:54:57 · 178 阅读 · 0 评论 -
Spark_06
文章目录回顾回顾原创 2019-06-03 16:49:54 · 140 阅读 · 0 评论 -
Spark_08
文章目录原创 2019-08-15 08:34:38 · 3232 阅读 · 0 评论 -
Spark_05
文章目录回顾自定义排序回顾cache方法,没有生成新的RDD,也没有触发任务执行,只会标记该RDD分区对应的数据(第一次触发Action时)放入到内存checkpoint方法,没有生成新的RDD,也是没有触发Action,也是标记以后触发Action时会将数据保存到HDFS中根据IP地址计算归属地IP转换成十进制二分法查找广播变量(广播出去的内容一旦广播出去,就不能改变了),如果需要...原创 2019-05-28 19:03:55 · 106 阅读 · 0 评论 -
Spark_04
文章目录回顾RDD的cacheRDD做Checkpoint(保存到分布式文件系统中)单机程序计算IP归属地广播变量回顾一个分区对应一个Task,一个分区对应的Task只能在一台机器里面(在Executor),一台机器上可以有多个分区对应的Task。分组TopN1.聚合后按照学科进行分组,然后在每个分组中进行排序(调用的是Scala集合的排序)2.先按学科进行过滤,然后调用RDD的方法进行...原创 2019-05-27 20:50:30 · 126 阅读 · 0 评论 -
Spark_03
文章目录RDD与普通集合有那些区别CombineByKey案例:最受欢迎的老师自定义分区器RDD与普通集合有那些区别RDD里面记录的是描述信息(从哪里读数据,以后对数据如何进行计算),RDD的方法分为两类Transformation(lazy),Action(生成Task,并发送到Executor中执行)Scala存储的是真正要计算的数据,执行方法后立即返回结果。RDD特征:1.一系列分...原创 2019-05-27 13:42:11 · 136 阅读 · 0 评论