![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
不愿做秃头男孩
这个作者很懒,什么都没留下…
展开
-
Flink1.7.2(1.9)环境搭建
1前言1.1模式本文适用于flink1.7.2版本的环境搭建,搭建模式包括Local(本地模式)、standalone模式以及On yarn模式。1.2前提环境 已有环境 版本 服务器 test-1,test-2,test-3 JDK 1.8.x Ha...原创 2020-07-28 18:51:05 · 338 阅读 · 0 评论 -
分布式共享锁逻辑流程是什么样的
有时根据需求,几台服务器需要从一个WEB接口或者数据库获得同样的资源,因为不能同时获取,就涉及到了资源调度算法一种资源调度逻辑是:1.程序节点启动时到zookeeper上注册一个“临时+序号”的znode,并监听父节点。2.获取父节点下所有的程序子节点,比较序号的大小。3.序号最小的获取到“锁”,去访问资源,访问完后,删除自己的节点,相当于释放锁,并且重新注册一个新的子节点。4...原创 2019-12-12 10:22:29 · 151 阅读 · 0 评论 -
Spark/Hadoop/Mahout等推荐系统常用数据集
Book· 1. Book CrossingBookCrossing(BX)数据集由Cai-Nicolas花了的4周(2004年8月/ 9月)从Book-Crossing社区中爬取得到的。·下载链接:http://www2.informatik.uni-freiburg.de/~cziegler/BX电子商务· 2. Amazon该数据集包括自1996年5月至201...原创 2019-12-12 10:19:14 · 491 阅读 · 0 评论 -
大数据领域机器学习或推荐系统数据集大全
数据集汇总一、免费大数据存储库的网站1、深度学习数据集收集网站http://deeplearning.net/datasets/**收集大量的各深度学习相关的数据集,但并不是所有开源的数据集都能在上面找到相关信息。2、Tiny Images Datasethttp://horatio.cs.nyu.edu/mit/tiny/data/index.html包含8000万...原创 2019-12-12 10:16:16 · 1910 阅读 · 0 评论 -
流利说大数据面经
1.项目里用到flume,flume的source、channel、sink分别用的什么类型的,flume事务。2.kafka producer的写入数据过程3.kafka为什么使用拉取消息的机制4.Spark工作流程5.Stage是如何划分的,task如何划分6.executor内存分配7.项目中用到前台向持久层拿数据,问从hive中拿不会慢吗,答使用sqoop传到mys...原创 2019-08-17 10:41:31 · 456 阅读 · 0 评论 -
大数据面试总结-Spark
1.Spark原理spark可以很容易和yarn结合,直接调用HDFS、Hbase上面的数据,和hadoop结合。配置很容易。spark发展迅猛,框架比hadoop更加灵活实用。减少了延时处理,提高性能效率实用灵活性。也可以与hadoop切实相互结合。spark核心部分分为RDD。SparkSQL、SparkStreaming、MLlib、GraphX、SparkR等核心组件解决了...原创 2019-07-26 11:59:38 · 1083 阅读 · 0 评论 -
大数据面试总结-kafka
下一篇:Sparkhttps://blog.csdn.net/Mr_Fjl/article/details/973731931.什么是kafka?kafka是分布式发布-订阅消息系统,是一种分布式的消息队列工具kafka是一个分布式的,可分区的,可复制的消息系统kafka对消息保存的时候根据topic进行分类,发送消息者称为Producer,消息接受者称为consumer,此外k...原创 2019-07-26 10:22:29 · 200 阅读 · 0 评论 -
大数据面试总结-Hive
下一篇 Kafkahttps://blog.csdn.net/Mr_Fjl/article/details/97367929Hive是基于Hadoop的一个数据仓库处理工具,是一种数据库技术,用于查询和管理存储在分布式环境下的大数据集,可以定义数据库和表来分析结构化数据,适合处理相对静态的海量的数据集。可以将结构化的数据映射为一张数据库表,提供简单的SQL的查询功能,将SQL语句转化为Ma...原创 2019-07-25 20:18:33 · 392 阅读 · 0 评论 -
大数据面试总结-zookeeper
下一篇 Hivehttps://blog.csdn.net/Mr_Fjl/article/details/97293025转载至https://www.cnblogs.com/lanqiu5ge/p/9405601.html1. ZooKeeper是什么?ZooKeeper是一个开放源码的分布式协调服务,它是集群的管理者,监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操作...原创 2019-07-25 19:53:16 · 143 阅读 · 0 评论 -
大数据面试总结-hadoop
下一篇Zookeeperhttps://blog.csdn.net/Mr_Fjl/article/details/972923061.什么是 Hadoop? Hadoop 是一个开源软件框架,用于存储大量数据,并发处理/查询在具有多个商用硬件(即低成本硬件)节点的集群上的那些数据。总之,Hadoop 包括以下内容: HDFS(Hadoop Distributed File Sys...原创 2019-07-25 19:47:37 · 191 阅读 · 0 评论