404个问号-CSDN博客

原创 spark streaming学习总结

目录标题简介及原理简介及原理SparkStreaming是Spark核心API的一个扩展，可以实现高吞吐量的，具备容错机制的实时流数据处理。Spark Streaming接收Kafka、Flume、HDFS等各种来源的实时输入数据：进行处理后，处理结构保存在HDFS、DataBase等各种地方。使用的最多的是kafka+Spark StreamingSpark处理的是批量的数据（离线数据），Spark Streaming实际上处理并不是像Strom一样来一条处理一条数据，而是对接的外部数据流之后按照

2022-04-20 11:01:48 508

原创 spark streaming总结

目录标题简介及原理简介及原理SparkStreaming是Spark核心API的一个扩展，可以实现高吞吐量的，具备容错机制的实时流数据处理。Spark Streaming接收Kafka、Flume、HDFS等各种来源的实时输入数据：进行处理后，处理结构保存在HDFS、DataBase等各种地方。使用的最多的是kafka+Spark StreamingSpark处理的是批量的数据（离线数据），Spark Streaming实际上处理并不是像Strom一样来一条处理一条数据，而是对接的外部数据流之后按照

2022-04-01 11:04:45 2113

原创 hive表导出数据为txt或者xml文件

文章目录导出数据到本地一、导出为txt二、导出为xml保存结果到HDFS中导出数据到本地一、导出为txt通过重定向方式,将查询结果写到指定的文件中hive -e "SELECT * from 表 where dt='';" > cust.txt使用INSERT OVERWRITE LOCAL DIRECTORY保存结果到本地hive -e "INSERT OVERWRITE LOCAL DIRECTORY '/home/data/cust.txt' ROW format de

2022-03-31 18:21:33 4836

原创学习计划模板

系列文章目录提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加例如：第一章 Python 机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录系列文章目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结项目场景：问题描述原因分析：解决方案：学习目标：学习内容：学习时间：学习产出：前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习

2022-03-18 18:20:35 487

原创 python学习总结

python基础，数据类型，常用函数

2022-03-18 18:11:21 836

原创图数据库（neo4j）学习心得

图数据库（neo4j）学习心得什么是图？图由两个元素组成：节点、关系每一个节点代表一个实体，每一个关系代表两个节点的关联方式图形数据库是NoSQL数据库的一种类型，它应用图形理论存储实体之间的关系信息。关系型数据库用于存储“关系型”数据的效果并不好，其查询复杂、缓慢、超出预期，而图形数据库的独特设计恰恰弥补了这个缺陷。图数据库常用领域社交网络Facebook, Twitter，Linkedin用它来管理社交关系，实现好友推荐推荐和个性化eBay，沃尔玛使用它实现商品实时推荐，给买家

2022-03-10 11:12:48 4864 1

原创 flink学习总结（大数据面试）

概述

2021-08-16 16:36:51 2016

原创 Hadoop面试题总结（大数据面试）

概述

2021-08-16 16:06:49 1695

原创 Zookeper面试题总结（大数据面试）

概述

2021-08-12 22:34:23 316

原创 YARN面试题总结（大数据面试）

概述

2021-08-12 22:24:09 1670

原创 Elasticsearch面试题（大数据面试）

概述Elasticsearch 是一个分布式可扩展的实时搜索和分析引擎,一个建立在全文搜索引擎 Apache Lucene™ 基础上的搜索引擎.基于RESTful web接口。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索引擎。设计用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。Luncene是单节点的API，ElasticSearch是分布式的。当然 Elasticsearch 并不仅仅是 Lucene 那么简单，它不仅包

2021-08-12 22:06:49 371

原创 kylin面试题总结（大数据面试）

概述

2021-08-12 21:41:01 1102

原创 Hbase面试题总结（大数据面试）

概述

2021-08-12 21:31:54 10854

原创 Scala面试题总结（大数据面试）

概述

2021-08-12 21:13:16 3967

原创 spark面试题总结（大数据面试）

概述

2021-08-11 11:46:09 987

原创 hive面试题总结（大数据面试）

概述

2021-08-11 11:01:36 4333

原创 sqoop面试题总结（大数据面试）

概述

2021-08-11 09:28:41 1555

原创 kafka面试题总结（大数据面试）

kafka概述Kafka是分布式发布-订阅消息系统，它最初是由LinkedIn公司开发的，之后成为Apache项目的一部分，Kafka是一个分布式，可划分的，冗余备份的持久性的日志服务，它主要用于处理流式数据。1、为什么要使用 kafka，为什么要使用消息队列？缓冲和削峰：上游数据时有突发流量，下游可能扛不住，或者下游没有足够多的机器来保证冗余，kafka在中间可以起到一个缓冲的作用，把消息暂存在kafka中，下游服务就可以按照自己的节奏进行慢慢处理。解耦和扩展性：项目开始的时候，并不能确定具体需求

2021-08-10 20:16:27 427

原创 flume面试题总结（大数据面试）

flume概述Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。使用Taildir Source采集文件夹数据到hdfsTaildir Source 是Apache flume1.7新推出的，但是CDH Flume1.6做了集成Taildir Source是高可靠（reliable）的source，他会实时的将文件

2021-08-10 19:32:15 600

let_go_on的博客