自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 资源 (7)
  • 收藏
  • 关注

原创 推荐系统概念与思维

1.1.什么是推荐系统:推荐系统是一种信息过滤系统,手段是预测用户对物品的偏好1.2:推荐系统三大问题 1.2.1他能做什么? 它会帮助我们把用户和物品之间的链接提前找出来 1.2.2他需要什么? 他需要目前已存在尽可能多的链接 1.2.3他要怎么做? 它是预测用户评分还有偏好1.3是否自己公司需要推荐系统1.3.1产品的目的:如果一款产品的目的是为了找出越来越多的链接na...

2020-05-02 00:05:04 195

原创 Canal 与kafka

近段时间,业务系统架构基本完备,数据层面的建设比较薄弱,因为笔者目前工作重心在于搭建一个小型的数据平台。优先级比较高的一个任务就是需要近实时同步业务系统的数据(包括保存、更新或者软删除)到一个另一个数据源,持久化之前需要清洗数据并且构建一个相对合理的便于后续业务数据统计、标签系统构建等扩展功能的数据模型。基于当前团队的资源和能力,优先调研了Alibaba开源中间件Canal的使用。这篇文章简单介...

2020-04-30 16:51:05 1097

原创 Mysql添加字段指定顺序

alter table 表名 add 字段 bigint(20) DEFAULT ‘0’ COMMENT ‘用户账号’ after 字段;

2020-04-30 15:34:25 2300

原创 公司选择kylin原因

kylin实现大数据近实时多维度分析现状目前大数据存在需要大量行为数据与用户标签数据的多维度的复杂分析统计场景,此场景同时有大量行为数据(事实数据)与多维度分析数据。需要在近实时查询的情况下快速得到结果帮助公司进行分析和决策。现在猎游大数据的数据架构为:mysql:1)核心的用户标签数据(如用户渠道、平台、性别、消费层级、身份等)2)核心交易明细数据3)已汇总的统计结果数据Elas...

2020-04-28 14:02:10 452

原创 Kylin配置解析

Kylin配置初步拟成Kylin 配置文件解析Kylin 会自动从环境中读取 Hadoop 配置(core-site.xml),Hive 配置(hive-site.xml)和 HBase 配置(hbase-site.xml),另外,Kylin 的配置文件在 $KYLIN_HOME/conf/ 目录下kylin_hive_conf.xml:该文件包含了 Hive 任务的配置项依赖于我们自己的h...

2020-04-28 14:00:38 1456

原创 Kylin 安装部署

Kylin 安装文档:1:操作系统 Ubuntu 12.04.5 LTS2:时间问题时间同步NTP,Chrony3.用户hadoop 如果做集群做免密登录4:环境要求Hadoop 2.6hbase 1.1.3 以上hive 1.2.1 或者2.0 mysql存放元数据5:安装目录cd /usr/localmkdir /usr/locak/kylinchown -R ...

2020-04-28 13:59:39 442

kafka.mmap

Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。 这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。 这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。 对于像Hadoop一样的日志数据和离线分析系统,但又要求实时处理的限制,这是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提供实时的消息。

2020-10-15

Flink_思维导图.xmind

Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序,Flink的流水线运行时系统可以执行批处理和流处理程序。此外,Flink的运行时本身也支持迭代算法的执行

2020-10-15

Zookeeper .mmap

ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。 ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。 ZooKeeper包含一个简单的原语集,提供Java和C的接口。

2020-10-15

大数据日知录.mmap

《大数据日知录:架构与算法》从架构与算法角度全面梳理了大数据存储与处理的相关技术。大数据技术具有涉及的知识点异常众多且正处于快速演进发展过程中等特点,其技术点包括底层的硬件体系结构、相关的基础理论、大规模数据存储系统、分布式架构设计、各种不同应用场景下的差异化系统设计思路、机器学习与数据挖掘并行算法以及层出不穷的新架构、新系统等。《大数据日知录:架构与算法》对众多纷繁芜杂的相关技术文献和系统进行了择优汰劣并系统性地对相关知识分门别类地进行整理和介绍,将大数据相关技术分为大数据基础理论、大数据系统体系结构、大数据存储,以及包含批处理、流式计算、交互式数据分析、图数据库、并行机器学习的架构与算法以

2020-10-15

Hbase.mmap

HBASE是bigTable,(源代码是Java编写)的开源版本,是Apache Hadoop的数据库,是建立在hdfs之上,被设计用来提供高可靠性,高性能、列存储、可伸缩、多版本,的Nosql的分布式数据存储系统,实现对大型数据的实时,随机的读写请求。更是弥补了hive不能低延迟、以及行级别的增删改的缺点。    HBASE依赖于hdfs做底层的数据存储    HBASE依赖于MapReduce做数据计算    HBASE依赖于zookeeper做服务协调

2020-10-15

Java基础.zip

关于大数据一整套的java知识,包含jvm多线程,java集合。死锁分析定位。Java作为大数据技术的必备基础编程语言,是想要转行学习大数据的小伙伴必须要熟练掌握的一项技术。今天大数据就为大家带来了Java里的小知识点讲解,希望对你的大数据学习有所帮助啦。

2020-10-13

Flume核心思想与解密

Apache flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统,用于有效地收集、聚合和将大量日志数据从许多不同的源移动到一个集中的数据存储(如文本、HDFS、Hbase等)。   其使用不仅仅限于日志数据聚合。因为数据源是可定制的(内置Avro,Thrift Syslog,Netcat),Flume可以用于传输大量事件数据,包括但不限于网络流量数据、社交媒体生成的数据、电子邮件消息和几乎所有可能的数据源。

2020-10-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除