自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 spark streaming学习总结

目录标题简介及原理简介及原理SparkStreaming是Spark核心API的一个扩展,可以实现高吞吐量的,具备容错机制的实时流数据处理。Spark Streaming接收Kafka、Flume、HDFS等各种来源的实时输入数据:进行处理后,处理结构保存在HDFS、DataBase等各种地方。使用的最多的是kafka+Spark StreamingSpark处理的是批量的数据(离线数据),Spark Streaming实际上处理并不是像Strom一样来一条处理一条数据,而是对接的外部数据流之后按照

2022-04-20 11:01:48 420

原创 spark streaming总结

目录标题简介及原理简介及原理SparkStreaming是Spark核心API的一个扩展,可以实现高吞吐量的,具备容错机制的实时流数据处理。Spark Streaming接收Kafka、Flume、HDFS等各种来源的实时输入数据:进行处理后,处理结构保存在HDFS、DataBase等各种地方。使用的最多的是kafka+Spark StreamingSpark处理的是批量的数据(离线数据),Spark Streaming实际上处理并不是像Strom一样来一条处理一条数据,而是对接的外部数据流之后按照

2022-04-01 11:04:45 2044

原创 hive表导出数据为txt或者xml文件

文章目录导出数据到本地一、导出为txt二、导出为xml保存结果到HDFS中导出数据到本地一、导出为txt通过重定向方式,将查询结果写到指定的文件中hive -e "SELECT * from 表 where dt='';" > cust.txt使用INSERT OVERWRITE LOCAL DIRECTORY保存结果到本地hive -e "INSERT OVERWRITE LOCAL DIRECTORY '/home/data/cust.txt' ROW format de

2022-03-31 18:21:33 4656

原创 学习计划模板

系列文章目录提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录系列文章目录前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结项目场景:问题描述原因分析:解决方案:学习目标:学习内容:学习时间:学习产出:前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习

2022-03-18 18:20:35 395

原创 python学习总结

python基础,数据类型,常用函数

2022-03-18 18:11:21 742

原创 图数据库(neo4j)学习心得

图数据库(neo4j)学习心得什么是图?​ 图由两个元素组成:节点、关系​ 每一个节点代表一个实体,每一个关系代表两个节点的关联方式图形数据库是NoSQL数据库的一种类型,它应用图形理论存储实体之间的关系信息。关系型数据库用于存储“关系型”数据的效果并不好,其查询复杂、缓慢、超出预期,而图形数据库的独特设计恰恰弥补了这个缺陷。图数据库常用领域社交网络Facebook, Twitter,Linkedin用它来管理社交关系,实现好友推荐推荐和个性化eBay,沃尔玛使用它实现商品实时推荐,给买家

2022-03-10 11:12:48 4567 1

原创 flink学习总结(大数据面试)

概述

2021-08-16 16:36:51 1881

原创 Hadoop面试题总结(大数据面试)

概述

2021-08-16 16:06:49 1575

原创 Zookeper面试题总结(大数据面试)

概述

2021-08-12 22:34:23 254

原创 YARN面试题总结(大数据面试)

概述

2021-08-12 22:24:09 1541

原创 Elasticsearch面试题(大数据面试)

概述Elasticsearch 是一个分布式可扩展的实时搜索和分析引擎,一个建立在全文搜索引擎 Apache Lucene™ 基础上的搜索引擎.基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。Luncene是单节点的API,ElasticSearch是分布式的。当然 Elasticsearch 并不仅仅是 Lucene 那么简单,它不仅包

2021-08-12 22:06:49 265

原创 kylin面试题总结(大数据面试)

概述

2021-08-12 21:41:01 957

原创 Hbase面试题总结(大数据面试)

概述

2021-08-12 21:31:54 10513

原创 Scala面试题总结(大数据面试)

概述

2021-08-12 21:13:16 3727

原创 spark面试题总结(大数据面试)

概述

2021-08-11 11:46:09 878

原创 hive面试题总结(大数据面试)

概述

2021-08-11 11:01:36 4061

原创 sqoop面试题总结(大数据面试)

概述

2021-08-11 09:28:41 1428

原创 kafka面试题总结(大数据面试)

kafka概述Kafka是分布式发布-订阅消息系统,它最初是由LinkedIn公司开发的,之后成为Apache项目的一部分,Kafka是一个分布式,可划分的,冗余备份的持久性的日志服务,它主要用于处理流式数据。1、为什么要使用 kafka,为什么要使用消息队列?缓冲和削峰:上游数据时有突发流量,下游可能扛不住,或者下游没有足够多的机器来保证冗余,kafka在中间可以起到一个缓冲的作用,把消息暂存在kafka中,下游服务就可以按照自己的节奏进行慢慢处理。解耦和扩展性:项目开始的时候,并不能确定具体需求

2021-08-10 20:16:27 347

原创 flume面试题总结(大数据面试)

flume概述Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。使用Taildir Source采集文件夹数据到hdfsTaildir Source 是Apache flume1.7新推出的,但是CDH Flume1.6做了集成Taildir Source是高可靠(reliable)的source,他会实时的将文件

2021-08-10 19:32:15 485

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除