大数据(其他)
文章平均质量分 89
四月天03
能用钱解决的问题,千万别花时间
展开
-
一文搞懂业务架构、应用架构、技术架构、数据架构(4A架构)
有https://blog.csdn.net/Jorocco/article/details/82182500原创 2019-05-17 17:50:36 · 2227 阅读 · 1 评论 -
想学大数据开发?大数据学习路线
Java核心--> MySQL-->JDBC-->Maven-->Linux-->Shell-->Hadoop2.x-->Hadoop3.x-->Zookeeper-->Hadoop高可用集群-->HA-->Hive-->Hive高级-->Flume-->Kafka-->HBase-->Azkaban-->Maxwell-->Canal-->Scala-->Spark-->Spark原创 2021-04-16 18:44:58 · 359 阅读 · 0 评论 -
大数据处理中的Lambda架构和Kappa架构
一、大数据平台的架构首先我们来看一个典型的互联网大数据平台的架构,如下图所示:在这张架构图中,大数据平台里面向用户的在线业务处理组件用褐色标示出来,这部分是属于互联网在线应用的部分,其他蓝色的部分属于大数据相关组件,使用开源大数据产品或者自己开发相关大数据组件。你可以看到,大数据平台由上到下,可分为三个部分:数据采集、数据处理、数据输出与展示。1、数据采集将应用程序产生的数据和日志等同步到大数据系统中,由于数据源不同,这里的数据同步系统实际上是多个相关系统的组合。数据库同步通常.原创 2021-02-23 15:49:35 · 600 阅读 · 0 评论 -
java执行sql脚本,shell脚本
Spark 2.0 机器学习 ML 库:数据分析方法Spark 2.0 机器学习 ML 库:数据分析方法原创 2020-03-19 21:20:52 · 665 阅读 · 0 评论 -
银行ECIF系统
一、ECIF与CRM1.何为ECIFECIF是企业级客户信息整合系统(Enterprise Customer Information Facility),系统主要的目的是整合银行各个系统的客户信息,比如包括客户基本信息、客户关系、客户产品等等。我理解整合后的系统属于基础信息系统。2.何为CRMCRM是客户关系管理(Customer Relationship Management)。主要的目的应该是挖掘潜在客户,分析计算客户现有数据,挖掘客户潜力,提高客户的贡献度,给客户经理提供全方位的客户信原创 2020-09-27 14:18:12 · 15976 阅读 · 0 评论 -
大数据笔/面试题
1、 采集nginx产生的日志,日志的格式为user ip time url htmlId 每天产生的文件的数据量上亿条,请设计方案把数据保存到HDFS上,并提供一下实时查询的功能(响应时间小于3s)A、某个用户某天访问某个URL的次数B、某个URL某天被访问的总次数备份思路:flume+HDFS实时思路:使用Logstash (flume)+ Kafka + Spark...原创 2019-11-20 14:01:29 · 915 阅读 · 0 评论 -
分布式系统全局唯一ID简介、特点、生成方式、各自的优劣势
背景在分布式系统中,经常需要对大量的数据、消息、http请求等进行唯一标识,例如:在分布式系统之间http请求需要唯一标识,调用链路分析的时候需要使用这个唯一标识。这个时候数据库自增主键已经不能满足需求,需要一个能够生成全局唯一ID的系统,这个系统需要满足以下需求:全局唯一:不能出现重复ID。 高可用:ID生成系统是基础系统,被许多关键系统调用,如果ID生成系统瘫痪,一旦宕机,会造成严...原创 2019-10-31 14:53:20 · 1164 阅读 · 1 评论 -
三种实现分布式锁的方式
一、为什么要使用分布式锁我们在开发应用的时候,如果需要对某一个共享变量进行多线程同步访问的时候,可以使用我们学到的Java多线程的18般武艺进行处理,并且可以完美的运行,毫无Bug!注意这是单机应用,也就是所有的请求都会分配到当前服务器的JVM内部,然后映射为操作系统的线程进行处理!而这个共享变量只是在这个JVM内部的一块内存空间!后来业务发展,需要做集群,一个应用需要部署到几台机器上然后做负载均衡,大致如下图:上图可以看到,变量A存在JVM1、JVM2、JVM3三个JVM内存中(这个变转载 2020-05-28 16:59:20 · 388 阅读 · 0 评论 -
日均数十亿请求!评价系统海量数据存储高可用设计
京东的商品评论目前已达到数十亿条,每天提供的服务调用也有数十亿次,而这些数据每年还在成倍增长,而数据存储是其中最重要的部分之一,接下来就介绍下京东评论系统的数据存储是如何设计的。整体数据存储包括基础数据存储、文本存储、数据索引、数据缓存几个部分。基础数据存储基础数据存储使用MySQL,因用户评论为文本信息,通常包含文字、字符等,占用的存储空间比较大,为此MySQL作为基础数...原创 2019-06-05 16:20:14 · 1266 阅读 · 0 评论 -
大数据时代的海量数据存储、和高并发解决方案总结
结构化数据的存储随着互联网应用的广泛普及,海量数据的存储和访问成为了系统设计的瓶颈问题。对于一个大型的互联网应用,每天几十亿的PV无疑对数据库造成了相当高的负载。对于系统的稳定性和扩展性造成了极大的问题。水平切分数据库,可以降低单台机器的负载,同时最大限度的降低了了宕机造成的损失。通过负载均衡策略,有效的降低了单台机器的访问负载,降低了宕机的可能性;通过集群方案,解决了数据库宕机带来的单点...原创 2019-06-06 10:21:10 · 32851 阅读 · 1 评论