盛世狼烟烟-CSDN博客

原创 DataX-MysqlWriter 插件文档

https://www.cnblogs.com/harvey2017/p/12148906.html

2021-03-15 16:54:35 471

1、下载镜像docker pull elasticsearch:7.4.2 # 存储和检索数据2、创建实例mkdir -p /mydata/elasticsearch/config # 在mydata文件夹下创建es的config文件夹，将docker中es的配置挂载在外部，当我们在linux虚拟机中修改es的配置文件时，就会同时修改docker中的es的配置mkdir -p /mydata/elasticsearch/data #在mydata文件夹下创建es的data文件夹echo "htt

2021-01-20 10:06:32 1381

原创 docker下安装kibana

一、概述Kibana是一个针对Elasticsearch的开源分析及可视化平台，用来搜索、查看交互存储在Elasticsearch索引中的数据。使用Kibana，可以通过各种图表进行高级数据分析及展示。二、安装下载镜像//下载镜像docker pull kibana:7.4.2配置文件mkdir -p /data/elk7/kibana/config/vi /data/elk7/kibana/config/kibana.yml配置内容如下##** THIS IS AN AUTO-

2021-01-20 09:45:26 789

原创 kylin异常排查-Step Name: Build Cube In-Mem

Kylin Build执行到17步时报错：17 Step Name: Build Cube In-Mem ，错误截图如下：点左下角的MRJob图标，打开查看错误信息：从MRJob中的描述中可见详细的错误信息：The required MAP capability is more than the supported max container capability in the cluster. Killing the Job. mapResourceRequest: <memory:30

2020-06-11 17:24:16 362

原创 kylin-增量构建Cube

1、全量和增量的区别对于全量构建来说，每当需要更新Cube数据的时候，它不会区分历史数据和新加入的数据，也就是说，在构建的时候会导入并处理所有的原始数据。我们将Cube划分为多个Segment，每个Segment用起始时间和结束时间来标志。Segment代表一段时间内源数据的预计算结果。增量构建只会导入新Segment指定的时间区间内的原始数据，并只对这部分原始数据进行预计算。最后，我们可以得到这样的结论：对于小数据量的Cube，或者经常需要全表更新的Cube，使用全量构建需要更少的运维精力，以少量

2020-06-11 17:18:44 915 1

原创 Zookeeper启动失败

1、zookeeper启动#打印启动信息，或者查看日志文件logs/zookeeper-root-server.out./zkServer.sh start-foreground2、启动失败，报错信息如下2020-06-10 14:45:01,046 [myid:] - INFO [main:Environment@100] - Server environment:user.dir=/opt/cloudera/parcels/CDH-5.16.2-1.cdh5.16.2.p0.8/lib/zo

2020-06-10 16:57:25 546 1

原创 Hive导入/导出 : 创建分区表及分区表导入csv文本文件数据

基本思路：分别创建两个表，一张是分区表，另一张是非分区表，表结构相同；再通过insert语句将非分区表的数据插入到分区表1。要注意是，分区表的插入分两种：静态插入和动态插入。在一般情况下，Hive不建议直接使用动态插入2，所以有个默认情况下是不允许使用动态分区插入：hive.exec.dynamic.partition=false；但在Hive 0.9.0及之后的版本，上述参数默认为true，虽然如此却有另一个参数约束着动态分区插入：hive.exec.dynamic.partition.mode=str

2020-06-05 16:12:05 3418

原创 hbase集群部署

cloudera manage 添加hbase服务，操作简单，无需配置，hbase本身配置并不复杂。详见参考，下载安装：https://www.cnblogs.com/tashanzhishi/p/10916714.html

2020-05-18 10:19:10 197

原创 kylin 集群部署

1. 集群节点规划与说明rzx1 allrzx2 queryrzx3 query说明：Kylin节点角色有三种：all：包含query和jobquery：查询节点job：工作节点3. Kylin依赖的其他大数据组件非常多，下列列表是安装kylin需要的组件JDK 1.8<必须项>HADOOP<必须项，hdfs作为数据存储基础，这里版本是hadoop-2.7.7>ZOOKEERER<必须项，集群协调，这里版本zookeeper-3.4.1

2020-05-18 10:15:40 562

原创 kylin依赖 -- CDH5.15安装Spark2.3服务

前提在部署kylin时，提示需要spark2依赖，1、到CDH官网下载对应的spark的parcel包http://archive.cloudera.com/spark2/csd/注意下载对应的版本，CentOS7，下载el7的包。2、开始安装2.1.安装前可以停掉集群和Cloudera Management Service，也可以不停，但是待会还是要停止重启的。2.2.上传CSD包到每台服务器上的/opt/cloudera/csd目录，并且修改文件的用户和组。注意如果本目录下有其他的ja

2020-05-18 10:03:53 358

原创 kylin集群部署以及踩坑

一、安装参考：https://www.cnblogs.com/binarylei/p/10549155.htmlhttps://www.cnblogs.com/jiashengmei/p/11778665.html二、踩坑1、Kylin启动命令异常“hbase-common lib not found”【原因】疑似HBase版本与Kylin版本兼容问题。Kylin启动时通过"hbase classpath"命令尝试获取hbase-common库的路径，而hbase并不一定返回hbase-comm

2020-05-09 18:03:04 591

原创 zookeeper和kafka安装

1、zookeeper：https://www.cnblogs.com/expiator/p/9853378.html2、kafka：https://www.cnblogs.com/expiator/p/9990171.html

2020-05-02 21:02:35 168

原创 Mac：mysql的安装以及canal测试

MySQL一、MySQL安装建议国内镜像下载，过程略过。二、环境变量第一步：在终端切换到根目录，编辑./.bash_profile文件vim ./.bash_profile第二步：进入vim 编辑环境。按下i 进入 insert 模式，输入export PATH=$PATH:/usr/local/mysql/binexport PATH=$PATH:/usr/local/...

2020-05-02 20:57:55 981 2

原创 pyspark RDD 一行转多行

dataframe也有按某列中按分隔符转成多行的函数，不过dataframe比rdd所需资源更多，所以此处先些rdd的按某列拆分转为多行dataframe的详见https://spark.apache.org/docs/2.3.1/api/python/pyspark.sql.html#pyspark.sql.DataFrame 的pyspark.sql.functions.explode(co...

2020-04-10 11:53:09 2767

原创 1 RDD的数据结构模型

1 RDD的数据结构模型前言：自Google发表三大论文GFS、MapReduce、BigTable以来，衍生出的开源框架越来越多，其中Hadoop更是以高可用、高扩展、高容错等特性形成了开源工业界事实标准。Hadoop是一个可以搭建在廉价PC上的分布式集群生态体系，用户可以在不清楚底层运行细节的情况下，开发出自己的分布式应用。但是Hadoop MapReduce由于其设计初衷并不是为了满足循环...

2020-03-22 22:53:12 2050

原创 Spark Rdd coalesce方法和repartition方法

在Spark的Rdd中，Rdd是分区的。有时候需要重新设置Rdd的分区数量，比如Rdd的分区中，Rdd分区比较多，但是每个Rdd的数据量比较小，需要设置一个比较合理的分区。或者需要把Rdd的分区数量调大。还有就是通过设置一个Rdd的分区来达到设置生成的文件的数量。有两种方法是可以重设Rdd的分区：分别是 coalesce()方法和repartition()。这两个方法有什么区别，看看源码就知...

2020-03-06 15:44:29 297

原创 Clickhouse集群应用、分片、复制

https://www.jianshu.com/p/20639fdfdc99Clickhouse集群应用、分片、复制1简介通常生产环境我们会用集群代替单机，主要是解决两个问题：效率稳定如何提升效率？一个大大大任务，让一个人干需要一年，拆解一下让12个人同时干，可能只需要1个月。对于数据库来说，就是数据分片。如何提升稳定性？所谓稳定就是要保证服务时刻都能用，也常说高可用。这就像团队里...

2019-10-10 15:40:42 1643

原创美团推荐算法实践

原文：https://cloud.tencent.com/developer/article/1342796前言推荐系统并不是新鲜的事物，在很久之前就存在，但是推荐系统真正进入人们的视野，并且作为一个重要的模块存在于各个互联网公司，还是近几年的事情。随着互联网的深入发展，越来越多的信息在互联网上传播，产生了严重的信息过载。如果不采用一定的手段，用户很难从如此多的信息流中找到对自己有价值的信息...

2019-08-02 15:20:08 276

转载指标权重确定方法之熵权法

http://blog.sina.com.cn/s/blog_710e9b550101aqnv.html一、熵权法介绍熵最先由申农引入信息论，目前已经在工程技术、社会经济等领域得到了非常广泛的应用。熵权法的基本思路是根据指标变异性的大小来确定客观权重。一般来说，若某个指标的信息熵越小，表明指标值得变异程度越大，提供的信息量越多，在综合评价中所能起到的作用也越大，其权重...

2018-11-26 15:36:49 3715 1

转载用户画像—计算用户偏好标签及数据指标与表结构设计

https://blog.csdn.net/u014156013/article/details/82656883一、用户画像—计算用户偏好标签下面介绍如何计算用户的偏好标签。在上一篇写用户画像的文章 “用户画像—打用户行为标签”中，主要讲了如何对用户的每一次操作行为、业务行为进行记录打上相应的标签。在这篇博客中，主要讲如何对这些明细标签进行计算以及偏好的产品、内容的类目。关于用户标签权重...

2018-11-23 18:28:16 2006

转载用户画像之标签权重算法

https://mp.weixin.qq.com/s?__biz=MzI0OTQyNzEzMQ==&mid=2247487211&idx=1&sn=848069327f8c778e42427158f20f9b36&chksm=e990eb3fdee7622915479093a8f43f61dc8772cc681498f95dbde6960f11c5ed8f75bde...

2018-11-23 16:42:45 5422

转载用户画像之标签权重算法

https://mp.weixin.qq.com/s?__biz=MzI0OTQyNzEzMQ==&mid=2247487211&idx=1&sn=848069327f8c778e42427158f20f9b36&chksm=e990eb3fdee7622915479093a8f43f61dc8772cc681498f95dbde6960f11c5ed8f75bde...

2018-11-23 14:29:52 3737

转载用户画像—打用户行为标签

https://mp.weixin.qq.com/s?__biz=MzI0OTQyNzEzMQ==&mid=2247487355&idx=1&sn=b7d5d94a017a0c2908d8cee6a58d917a&chksm=e990eaafdee763b9dd5799b27c32d034bcd9d0e21d82c3c98219dda5f2f6bd6e79658f9...

2018-11-23 14:28:35 785

转载用户画像数据建模方法

二、用户画像数据建模方法作者：百分点技术总监郭志金摘自：百分点（ID: baifendian_com）从1991年Tim Berners-Lee发明了万维网（World Wide Web）开始，到20年后2011年，互联网真正走向了一个新的里程碑，进入了“大数据时代”。经历了12、13两年热炒之后，人们逐渐冷静下来，更加聚焦于如何利用大数据挖掘潜在的商业价值，如何在企业中实实在在的应用大数据...

2018-11-21 17:31:35 568

qq_36079077的博客

原创 DataX-MysqlWriter 插件文档

原创 Docker安装ES

原创 docker下安装kibana

原创 kylin异常排查-Step Name: Build Cube In-Mem

原创 kylin-增量构建Cube

原创 Zookeeper启动失败

原创 Hive导入/导出 : 创建分区表及分区表导入csv文本文件数据

原创 hbase集群部署

原创 kylin 集群部署

原创 kylin依赖 -- CDH5.15安装Spark2.3服务

原创 kylin集群部署以及踩坑

原创 zookeeper和kafka安装

原创 Mac：mysql的安装以及canal测试

原创 pyspark RDD 一行转多行

原创 1 RDD的数据结构模型

原创 Spark Rdd coalesce方法和repartition方法

原创 Clickhouse集群应用、分片、复制

原创美团推荐算法实践

转载指标权重确定方法之熵权法

转载用户画像—计算用户偏好标签及数据指标与表结构设计

转载用户画像之标签权重算法

转载用户画像之标签权重算法

转载用户画像—打用户行为标签

转载用户画像数据建模方法

空空如也

空空如也