大数据
qililong88
这个作者很懒,什么都没留下…
展开
-
Elasticsearch面试题
1.为什么要使用Elasticsearch? 因为在我们商城中的数据,将来会非常多,所以采用以往的模糊查询,模糊查询前置配置,会放弃索引,导致商品查询是全表扫面,在百万级别的数据库中,效率非常低下,而我们使用ES做一个全文索引,我们将经常查询的商品的某些字段,比如说商品名,描述、价格还有id这些字段我们放入我们索引库里,可以提高查询速度。2.Elasticsearch是如何实现Master选举的? Elasticsearch的选主是ZenDiscovery模块负责的,主要包含Ping(节转载 2020-09-18 20:13:20 · 2390 阅读 · 1 评论 -
kafka与Rocketmq的区别
淘宝内部的交易系统使用了淘宝自主研发的Notify消息中间件,使用Mysql作为消息存储媒介,可完全水平扩容,为了进一步降低成本,我们认为存储部分可以进一步优化,2011年初,Linkin开源了Kafka这个优秀的消息中间件,淘宝中间件团队在对Kafka做过充分Review之后,Kafka无限消息堆积,高效的持久化速度吸引了我们,但是同时发现这个消息系统主要定位于日志传输,对于使用在淘宝交易、订单、充值等场景下还有诸多特性不满足,为此我们重新用Java语言编写了RocketMQ,定位于非日志的可靠消息传输(转载 2020-05-15 16:42:01 · 257 阅读 · 0 评论 -
RocketMQ学习3-原理
消息存储,高可用机制,负载均衡,消息重试,死信队列,消息幂等消息存储:为了保障高可用需要持久化:存储介质:1)关系型数据库DB:Apache下开源的另外一款MQ—ActiveMQ(默认采用的KahaDB做消息存储)可选用JDBC的方式来做消息持久化,通过简单的xml配置信息即可实现JDBC消息存储。2)文件系统:(RocketMQ/Kafka/RabbitMQ)均采用的是消息刷盘至所部署虚拟机/物理机的文件系统来做持久化存储过程读和写是如何保持高速的:写:RocketMQ的消息用原创 2020-05-15 16:39:06 · 584 阅读 · 0 评论 -
ROCKETMQ学习总结1入门
MQ 作用:应用解耦 、流量削峰 、数据分发常见的MQ产品包括Kafka、ActiveMQ、RabbitMQ、RocketMQ。RocketMQ组成角色:Producer:消息的发送者; Consumer:消息接收者; Broker:暂存和传输消息; NameServer:管理Broker; Topic:区分消息的种类; Message Queue:相当于是Topic的分区;用于并行发送和接收消息 。高可用的保障:集群搭建:单Master模式、多Master模式、多Master多Slav原创 2020-05-14 15:28:44 · 258 阅读 · 0 评论 -
大数据算法
1、数据进行分类和预测?KNN 分类算法 对于一个需要分类的数据,将其和一组已经分类标注好的样本集合进行比较,得到距离最近的 K 个样本,K 个样本最多归属的类别,就是这个需要分类数据的类别使用场景:新闻分类、商品分类、简单的文字识别如何计算数据的距离呢?如何获得新闻的特...原创 2020-04-16 01:39:36 · 1431 阅读 · 0 评论 -
大数据和用户增长模型
AARRR 用户增长模型关于用户增长有一个著名的 AARRR 模型,它描述了用户增长的 5 个关键环节,分别是:获取用户(Acquisition)、提高活跃度(Activation)、提高留存率(Retention)、获取收入(Revenue)和自传播(Refer)。获取用户:通过各种推广手段,使产品触达用户并吸引用户,让用户访问我们的产品。提高活跃度:用户访问我们的产品后,如果发现没意思、...原创 2020-03-28 17:08:15 · 911 阅读 · 1 评论 -
从0开始学大数据总结笔记: 3、大数据平台与系统集成
1、大数据平台由上到下,可分为三个部分:数据采集、数据处理、数据输出与展示。数据采集将应用程序产生的数据和日志等同步到大数据系统中,由于数据源不同,这里的数据同步系统实际上是多个相关系统的组合。数据库同步通常用 Sqoop(Sqoop适合离线批量导入关系数据库的数据,Canle适合实时导入关系数据库的数据。),日志同步可以选择 Flume,打点采集的数据经过格式化转换后通过 Kafka 等消息...原创 2020-03-28 16:04:46 · 987 阅读 · 0 评论 -
从0开始学大数据总结笔记:2、大数据生态体系主要产品原理与架构
我们常常意识不到问题的存在,直到有人解决了这些问题。上面所有这些技术在实际部署的时候,通常会部署在同一个集群中,某台服务器可能运行着 HDFS 的 DataNode 进程,负责 HDFS 的数据存储;同时也运行着 Yarn 的 NodeManager,负责计算资源的调度管理;而 MapReduce、Spark、Storm、Flink 这些批处理或者流处理大数据计算引擎则通过 Yarn 的调度,...原创 2020-03-27 15:01:16 · 466 阅读 · 1 评论 -
Impala简介,以及Hive, impala 的比较
Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具,Impala没有再使用缓慢的 Hive+MapReduce批处理,而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由Query Planner、Query Coordinator和Query Exec Engine三部分组成),可以直接从HDFS或HBase中用SELECT、JOIN和统...原创 2020-03-26 21:42:13 · 252 阅读 · 0 评论 -
从0开始学大数据总结笔记:1、Hadoop大数据原理与架构
Hadoop大数据原理与架构1、移动计算不移动数据原则:使用 HDFS 分布式文件存储系统,将文件分成很多块(Block),以块为单位存储在集群的服务器上每台服务器原本都不带有程序,但是调度服务器为处理服务器分发任务之后,处理服务器就执行任务并检查是否有该程序,没有就下载,下载之后从指定路径中读取数据进行处理,处理好之后统一存放处理结果Hadoop 主要是由三部分组成,分布式文件系统 ...原创 2020-03-26 18:48:57 · 371 阅读 · 0 评论 -
一个网络请求是如何完成服务并返回的
考察的是一个典型的互联网应用,比如淘宝的架构是怎样的。简化描述下,这个过程是:首先,一个请求从 Web 或者移动 App 上发起,请求的 URL 是用域名标识的,比如 taobao.com 这样,而 HTTP 网络通信需要得到 IP 地址才能建立连接,所以先要进行域名解析,访问域名解析服务器 DNS,得到域名的 IP 地址。得到的这个 IP 地址其实也不是淘宝的服务器的 IP 地址,而是 CDN ...原创 2020-03-26 18:44:40 · 947 阅读 · 0 评论 -
对依赖倒置原则的理解
框架在架构设计上遵循一个重要的设计原则叫“依赖倒转原则”,依赖倒转原则是高层模块不能依赖低层模块,它们应该共同依赖一个抽象,这个抽象由高层模块定义,由低层模块实现。所谓高层模块和低层模块的划分,简单说来就是在调用链上,处于前面的是高层,后面的是低层。 我们以典型的 Java Web 应用举例,用户请求在到达服务器以后,最先处理用户请求的是 Java Web 容器,比如 Tomcat、Jett...原创 2020-03-26 17:45:27 · 883 阅读 · 0 评论