一往无前的学习-CSDN博客

原创推荐系统概念与思维

1.1.什么是推荐系统：推荐系统是一种信息过滤系统，手段是预测用户对物品的偏好1.2：推荐系统三大问题 1.2.1他能做什么？它会帮助我们把用户和物品之间的链接提前找出来 1.2.2他需要什么？他需要目前已存在尽可能多的链接 1.2.3他要怎么做? 它是预测用户评分还有偏好1.3是否自己公司需要推荐系统1.3.1产品的目的：如果一款产品的目的是为了找出越来越多的链接na...

2020-05-02 00:05:04 195

近段时间，业务系统架构基本完备，数据层面的建设比较薄弱，因为笔者目前工作重心在于搭建一个小型的数据平台。优先级比较高的一个任务就是需要近实时同步业务系统的数据（包括保存、更新或者软删除）到一个另一个数据源，持久化之前需要清洗数据并且构建一个相对合理的便于后续业务数据统计、标签系统构建等扩展功能的数据模型。基于当前团队的资源和能力，优先调研了Alibaba开源中间件Canal的使用。这篇文章简单介...

2020-04-30 16:51:05 1097

原创 Mysql添加字段指定顺序

alter table 表名 add 字段 bigint(20) DEFAULT ‘0’ COMMENT ‘用户账号’ after 字段;

2020-04-30 15:34:25 2300

原创公司选择kylin原因

kylin实现大数据近实时多维度分析现状目前大数据存在需要大量行为数据与用户标签数据的多维度的复杂分析统计场景，此场景同时有大量行为数据（事实数据）与多维度分析数据。需要在近实时查询的情况下快速得到结果帮助公司进行分析和决策。现在猎游大数据的数据架构为：mysql：1）核心的用户标签数据（如用户渠道、平台、性别、消费层级、身份等）2）核心交易明细数据3）已汇总的统计结果数据Elas...

2020-04-28 14:02:10 452

原创 Kylin配置解析

Kylin配置初步拟成Kylin 配置文件解析Kylin 会自动从环境中读取 Hadoop 配置（core-site.xml），Hive 配置（hive-site.xml）和 HBase 配置（hbase-site.xml），另外，Kylin 的配置文件在 $KYLIN_HOME/conf/ 目录下kylin_hive_conf.xml：该文件包含了 Hive 任务的配置项依赖于我们自己的h...

2020-04-28 14:00:38 1456

原创 Kylin 安装部署

Kylin 安装文档：1：操作系统 Ubuntu 12.04.5 LTS2：时间问题时间同步NTP，Chrony3.用户hadoop 如果做集群做免密登录4：环境要求Hadoop 2.6hbase 1.1.3 以上hive 1.2.1 或者2.0 mysql存放元数据5：安装目录cd /usr/localmkdir /usr/locak/kylinchown -R ...

2020-04-28 13:59:39 442

kafka.mmap

Kafka是由Apache软件基金会开发的一个开源流处理平台，由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据。这种动作（网页浏览，搜索和其他用户的行动）是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop一样的日志数据和离线分析系统，但又要求实时处理的限制，这是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理，也是为了通过集群来提供实时的消息。

2020-10-15

Flink_思维导图.xmind

Apache Flink是由Apache软件基金会开发的开源流处理框架，其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序，Flink的流水线运行时系统可以执行批处理和流处理程序。此外，Flink的运行时本身也支持迭代算法的执行

2020-10-15

Zookeeper .mmap

ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组服务等。 ZooKeeper的目标就是封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户。 ZooKeeper包含一个简单的原语集，提供Java和C的接口。

2020-10-15

大数据日知录.mmap

《大数据日知录：架构与算法》从架构与算法角度全面梳理了大数据存储与处理的相关技术。大数据技术具有涉及的知识点异常众多且正处于快速演进发展过程中等特点，其技术点包括底层的硬件体系结构、相关的基础理论、大规模数据存储系统、分布式架构设计、各种不同应用场景下的差异化系统设计思路、机器学习与数据挖掘并行算法以及层出不穷的新架构、新系统等。《大数据日知录：架构与算法》对众多纷繁芜杂的相关技术文献和系统进行了择优汰劣并系统性地对相关知识分门别类地进行整理和介绍，将大数据相关技术分为大数据基础理论、大数据系统体系结构、大数据存储，以及包含批处理、流式计算、交互式数据分析、图数据库、并行机器学习的架构与算法以

2020-10-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

weixin_40544053的博客

原创推荐系统概念与思维

原创 Canal 与kafka

原创 Mysql添加字段指定顺序

原创公司选择kylin原因

原创 Kylin配置解析

原创 Kylin 安装部署

kafka.mmap

Flink_思维导图.xmind

Zookeeper .mmap

大数据日知录.mmap

Hbase.mmap

Java基础.zip

Flume核心思想与解密

空空如也

原创 推荐系统概念与思维

原创 Canal 与kafka

原创 Mysql添加字段指定顺序

原创 公司选择kylin原因

原创 Kylin配置解析

原创 Kylin 安装部署

kafka.mmap

Flink_思维导图.xmind

Zookeeper .mmap

大数据日知录.mmap

Hbase.mmap

Java基础.zip

Flume核心思想与解密

空空如也

原创推荐系统概念与思维

原创公司选择kylin原因