大数据
文章平均质量分 76
404个问号
学海无涯,砥砺前行,勿忘初心
展开
-
spark streaming学习总结
目录标题简介及原理简介及原理SparkStreaming是Spark核心API的一个扩展,可以实现高吞吐量的,具备容错机制的实时流数据处理。Spark Streaming接收Kafka、Flume、HDFS等各种来源的实时输入数据:进行处理后,处理结构保存在HDFS、DataBase等各种地方。使用的最多的是kafka+Spark StreamingSpark处理的是批量的数据(离线数据),Spark Streaming实际上处理并不是像Strom一样来一条处理一条数据,而是对接的外部数据流之后按照原创 2022-04-20 11:01:48 · 400 阅读 · 0 评论 -
spark streaming总结
目录标题简介及原理简介及原理SparkStreaming是Spark核心API的一个扩展,可以实现高吞吐量的,具备容错机制的实时流数据处理。Spark Streaming接收Kafka、Flume、HDFS等各种来源的实时输入数据:进行处理后,处理结构保存在HDFS、DataBase等各种地方。使用的最多的是kafka+Spark StreamingSpark处理的是批量的数据(离线数据),Spark Streaming实际上处理并不是像Strom一样来一条处理一条数据,而是对接的外部数据流之后按照原创 2022-04-01 11:04:45 · 2028 阅读 · 0 评论 -
hive表导出数据为txt或者xml文件
文章目录导出数据到本地一、导出为txt二、导出为xml保存结果到HDFS中导出数据到本地一、导出为txt通过重定向方式,将查询结果写到指定的文件中hive -e "SELECT * from 表 where dt='';" > cust.txt使用INSERT OVERWRITE LOCAL DIRECTORY保存结果到本地hive -e "INSERT OVERWRITE LOCAL DIRECTORY '/home/data/cust.txt' ROW format de原创 2022-03-31 18:21:33 · 4590 阅读 · 0 评论 -
python学习总结
python基础,数据类型,常用函数原创 2022-03-18 18:11:21 · 727 阅读 · 0 评论 -
图数据库(neo4j)学习心得
图数据库(neo4j)学习心得什么是图? 图由两个元素组成:节点、关系 每一个节点代表一个实体,每一个关系代表两个节点的关联方式图形数据库是NoSQL数据库的一种类型,它应用图形理论存储实体之间的关系信息。关系型数据库用于存储“关系型”数据的效果并不好,其查询复杂、缓慢、超出预期,而图形数据库的独特设计恰恰弥补了这个缺陷。图数据库常用领域社交网络Facebook, Twitter,Linkedin用它来管理社交关系,实现好友推荐推荐和个性化eBay,沃尔玛使用它实现商品实时推荐,给买家原创 2022-03-10 11:12:48 · 4479 阅读 · 1 评论 -
flink学习总结(大数据面试)
概述原创 2021-08-16 16:36:51 · 1847 阅读 · 0 评论 -
Hadoop面试题总结(大数据面试)
概述原创 2021-08-16 16:06:49 · 1542 阅读 · 0 评论 -
Zookeper面试题总结(大数据面试)
概述原创 2021-08-12 22:34:23 · 238 阅读 · 0 评论 -
YARN面试题总结(大数据面试)
概述原创 2021-08-12 22:24:09 · 1506 阅读 · 0 评论 -
Elasticsearch面试题(大数据面试)
概述Elasticsearch 是一个分布式可扩展的实时搜索和分析引擎,一个建立在全文搜索引擎 Apache Lucene™ 基础上的搜索引擎.基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。Luncene是单节点的API,ElasticSearch是分布式的。当然 Elasticsearch 并不仅仅是 Lucene 那么简单,它不仅包原创 2021-08-12 22:06:49 · 252 阅读 · 0 评论 -
kylin面试题总结(大数据面试)
概述原创 2021-08-12 21:41:01 · 909 阅读 · 0 评论 -
Hbase面试题总结(大数据面试)
概述原创 2021-08-12 21:31:54 · 10412 阅读 · 0 评论 -
Scala面试题总结(大数据面试)
概述原创 2021-08-12 21:13:16 · 3668 阅读 · 0 评论 -
spark面试题总结(大数据面试)
概述原创 2021-08-11 11:46:09 · 855 阅读 · 0 评论 -
hive面试题总结(大数据面试)
概述原创 2021-08-11 11:01:36 · 3982 阅读 · 0 评论 -
sqoop面试题总结(大数据面试)
概述原创 2021-08-11 09:28:41 · 1384 阅读 · 0 评论 -
kafka面试题总结(大数据面试)
kafka概述Kafka是分布式发布-订阅消息系统,它最初是由LinkedIn公司开发的,之后成为Apache项目的一部分,Kafka是一个分布式,可划分的,冗余备份的持久性的日志服务,它主要用于处理流式数据。1、为什么要使用 kafka,为什么要使用消息队列?缓冲和削峰:上游数据时有突发流量,下游可能扛不住,或者下游没有足够多的机器来保证冗余,kafka在中间可以起到一个缓冲的作用,把消息暂存在kafka中,下游服务就可以按照自己的节奏进行慢慢处理。解耦和扩展性:项目开始的时候,并不能确定具体需求原创 2021-08-10 20:16:27 · 321 阅读 · 0 评论 -
flume面试题总结(大数据面试)
flume概述Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。使用Taildir Source采集文件夹数据到hdfsTaildir Source 是Apache flume1.7新推出的,但是CDH Flume1.6做了集成Taildir Source是高可靠(reliable)的source,他会实时的将文件原创 2021-08-10 19:32:15 · 459 阅读 · 0 评论