自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

原创 DataX-MysqlWriter 插件文档

https://www.cnblogs.com/harvey2017/p/12148906.html

2021-03-15 16:54:35 382

原创 Docker安装ES

1、下载镜像docker pull elasticsearch:7.4.2 # 存储和检索数据2、创建实例mkdir -p /mydata/elasticsearch/config # 在mydata文件夹下创建es的config文件夹,将docker中es的配置挂载在外部,当我们在linux虚拟机中修改es的配置文件时,就会同时修改docker中的es的配置mkdir -p /mydata/elasticsearch/data #在mydata文件夹下创建es的data文件夹echo "htt

2021-01-20 10:06:32 1315

原创 docker下安装kibana

一、概述Kibana是一个针对Elasticsearch的开源分析及可视化平台,用来搜索、查看交互存储在Elasticsearch索引中的数据。使用Kibana,可以通过各种图表进行高级数据分析及展示。二、安装下载镜像//下载镜像docker pull kibana:7.4.2配置文件mkdir -p /data/elk7/kibana/config/vi /data/elk7/kibana/config/kibana.yml配置内容如下##** THIS IS AN AUTO-

2021-01-20 09:45:26 701

原创 kylin异常排查-Step Name: Build Cube In-Mem

Kylin Build执行到17步时报错:17 Step Name: Build Cube In-Mem ,错误截图如下:点左下角的MRJob图标,打开查看错误信息:从MRJob中的描述中可见详细的错误信息:The required MAP capability is more than the supported max container capability in the cluster. Killing the Job. mapResourceRequest: <memory:30

2020-06-11 17:24:16 312

原创 kylin-增量构建Cube

1、全量和增量的区别对于全量构建来说,每当需要更新Cube数据的时候,它不会区分历史数据和新加入的数据,也就是说,在构建的时候会导入并处理所有的原始数据。我们将Cube划分为多个Segment,每个Segment用起始时间和结束时间来标志。Segment代表一段时间内源数据的预计算结果。增量构建只会导入新Segment指定的时间区间内的原始数据,并只对这部分原始数据进行预计算。最后,我们可以得到这样的结论:对于小数据量的Cube,或者经常需要全表更新的Cube,使用全量构建需要更少的运维精力,以少量

2020-06-11 17:18:44 830 1

原创 Zookeeper启动失败

1、zookeeper启动#打印启动信息,或者查看日志文件logs/zookeeper-root-server.out./zkServer.sh start-foreground2、启动失败,报错信息如下2020-06-10 14:45:01,046 [myid:] - INFO [main:Environment@100] - Server environment:user.dir=/opt/cloudera/parcels/CDH-5.16.2-1.cdh5.16.2.p0.8/lib/zo

2020-06-10 16:57:25 469 1

原创 Hive导入/导出 : 创建分区表及分区表导入csv文本文件数据

基本思路:分别创建两个表,一张是分区表,另一张是非分区表,表结构相同;再通过insert语句将非分区表的数据插入到分区表1。要注意是,分区表的插入分两种:静态插入和动态插入。在一般情况下,Hive不建议直接使用动态插入2,所以有个默认情况下是不允许使用动态分区插入:hive.exec.dynamic.partition=false;但在Hive 0.9.0及之后的版本,上述参数默认为true,虽然如此却有另一个参数约束着动态分区插入:hive.exec.dynamic.partition.mode=str

2020-06-05 16:12:05 3162

原创 hbase集群部署

cloudera manage 添加hbase服务,操作简单,无需配置,hbase本身配置并不复杂。详见参考,下载安装:https://www.cnblogs.com/tashanzhishi/p/10916714.html

2020-05-18 10:19:10 157

原创 kylin 集群部署

1. 集群节点规划与说明rzx1 allrzx2 queryrzx3 query说明:Kylin节点角色有三种:all: 包含query和jobquery: 查询节点job: 工作节点3. Kylin依赖的其他大数据组件非常多,下列列表是安装kylin需要的组件JDK 1.8<必须项>HADOOP<必须项,hdfs作为数据存储基础,这里版本是hadoop-2.7.7>ZOOKEERER<必须项,集群协调,这里版本zookeeper-3.4.1

2020-05-18 10:15:40 487

原创 kylin依赖 -- CDH5.15安装Spark2.3服务

前提在部署kylin时,提示需要spark2依赖,1、到CDH官网下载对应的spark的parcel包http://archive.cloudera.com/spark2/csd/注意下载对应的版本,CentOS7,下载el7的包。2、开始安装2.1.安装前可以停掉集群和Cloudera Management Service,也可以不停,但是待会还是要停止重启的。2.2.上传CSD包到每台服务器上的/opt/cloudera/csd目录,并且修改文件的用户和组。注意如果本目录下有其他的ja

2020-05-18 10:03:53 293

原创 kylin集群部署以及踩坑

一、安装参考:https://www.cnblogs.com/binarylei/p/10549155.htmlhttps://www.cnblogs.com/jiashengmei/p/11778665.html二、踩坑1、Kylin启动命令异常“hbase-common lib not found”【原因】疑似HBase版本与Kylin版本兼容问题。Kylin启动时通过"hbase classpath"命令尝试获取hbase-common库的路径,而hbase并不一定返回hbase-comm

2020-05-09 18:03:04 526

原创 zookeeper和kafka安装

1、zookeeper:https://www.cnblogs.com/expiator/p/9853378.html2、kafka:https://www.cnblogs.com/expiator/p/9990171.html

2020-05-02 21:02:35 123

原创 Mac:mysql的安装以及canal测试

MySQL一、MySQL安装建议国内镜像下载,过程略过。二、环境变量第一步 :在终端切换到根目录,编辑./.bash_profile文件vim ./.bash_profile第二步 :进入vim 编辑环境。 按下i 进入 insert 模式 ,输入export PATH=$PATH:/usr/local/mysql/binexport PATH=$PATH:/usr/local/...

2020-05-02 20:57:55 859 2

原创 pyspark RDD 一行转多行

dataframe也有按某列中按分隔符转成多行的函数,不过dataframe比rdd所需资源更多,所以此处先些rdd的按某列拆分转为多行dataframe的详见https://spark.apache.org/docs/2.3.1/api/python/pyspark.sql.html#pyspark.sql.DataFrame 的pyspark.sql.functions.explode(co...

2020-04-10 11:53:09 2623

原创 1 RDD的数据结构模型

1 RDD的数据结构模型前言:自Google发表三大论文GFS、MapReduce、BigTable以来,衍生出的开源框架越来越多,其中Hadoop更是以高可用、高扩展、高容错等特性形成了开源工业界事实标准。Hadoop是一个可以搭建在廉价PC上的分布式集群生态体系,用户可以在不清楚底层运行细节的情况下,开发出自己的分布式应用。但是Hadoop MapReduce由于其设计初衷并不是为了满足循环...

2020-03-22 22:53:12 1935

原创 Spark Rdd coalesce方法和repartition方法

在Spark的Rdd中,Rdd是分区的。有时候需要重新设置Rdd的分区数量,比如Rdd的分区中,Rdd分区比较多,但是每个Rdd的数据量比较小,需要设置一个比较合理的分区。或者需要把Rdd的分区数量调大。还有就是通过设置一个Rdd的分区来达到设置生成的文件的数量。有两种方法是可以重设Rdd的分区:分别是 coalesce()方法和repartition()。这两个方法有什么区别,看看源码就知...

2020-03-06 15:44:29 223

原创 Clickhouse集群应用、分片、复制

https://www.jianshu.com/p/20639fdfdc99Clickhouse集群应用、分片、复制1简介通常生产环境我们会用集群代替单机,主要是解决两个问题:效率稳定如何提升效率?一个大大大任务,让一个人干需要一年,拆解一下让12个人同时干,可能只需要1个月。对于数据库来说,就是数据分片。如何提升稳定性?所谓稳定就是要保证服务时刻都能用,也常说高可用。这就像团队里...

2019-10-10 15:40:42 1566

原创 美团推荐算法实践

原文:https://cloud.tencent.com/developer/article/1342796前言推荐系统并不是新鲜的事物,在很久之前就存在,但是推荐系统真正进入人们的视野,并且作为一个重要的模块存在于各个互联网公司,还是近几年的事情。随着互联网的深入发展,越来越多的信息在互联网上传播,产生了严重的信息过载。如果不采用一定的手段,用户很难从如此多的信息流中找到对自己有价值的信息...

2019-08-02 15:20:08 227

转载 指标权重确定方法之熵权法

http://blog.sina.com.cn/s/blog_710e9b550101aqnv.html一、熵权法介绍 熵最先由申农引入信息论,目前已经在工程技术、社会经济等领域得到了非常广泛的应用。 熵权法的基本思路是根据指标变异性的大小来确定客观权重。 一般来说,若某个指标的信息熵越小,表明指标值得变异程度越大,提供的信息量越多,在综合评价中所能起到的作用也越大,其权重...

2018-11-26 15:36:49 3565 1

转载 用户画像—计算用户偏好标签及数据指标与表结构设计

https://blog.csdn.net/u014156013/article/details/82656883一、用户画像—计算用户偏好标签下面介绍如何计算用户的偏好标签。在上一篇写用户画像的文章 “用户画像—打用户行为标签”中,主要讲了如何对用户的每一次操作行为、业务行为进行记录打上相应的标签。在这篇博客中,主要讲如何对这些明细标签进行计算以及偏好的产品、内容的类目。关于用户标签权重...

2018-11-23 18:28:16 1875

转载 用户画像之标签权重算法

https://mp.weixin.qq.com/s?__biz=MzI0OTQyNzEzMQ==&amp;mid=2247487211&amp;idx=1&amp;sn=848069327f8c778e42427158f20f9b36&amp;chksm=e990eb3fdee7622915479093a8f43f61dc8772cc681498f95dbde6960f11c5ed8f75bde...

2018-11-23 16:42:45 5351

转载 用户画像之标签权重算法

https://mp.weixin.qq.com/s?__biz=MzI0OTQyNzEzMQ==&amp;mid=2247487211&amp;idx=1&amp;sn=848069327f8c778e42427158f20f9b36&amp;chksm=e990eb3fdee7622915479093a8f43f61dc8772cc681498f95dbde6960f11c5ed8f75bde...

2018-11-23 14:29:52 3604

转载 用户画像—打用户行为标签

https://mp.weixin.qq.com/s?__biz=MzI0OTQyNzEzMQ==&amp;mid=2247487355&amp;idx=1&amp;sn=b7d5d94a017a0c2908d8cee6a58d917a&amp;chksm=e990eaafdee763b9dd5799b27c32d034bcd9d0e21d82c3c98219dda5f2f6bd6e79658f9...

2018-11-23 14:28:35 744

转载 用户画像数据建模方法

二、用户画像数据建模方法作者:百分点技术总监郭志金摘自:百分点(ID: baifendian_com)从1991年Tim Berners-Lee发明了万维网(World Wide Web)开始,到20年后2011年,互联网真正走向了一个新的里程碑,进入了“大数据时代”。经历了12、13两年热炒之后,人们逐渐冷静下来,更加聚焦于如何利用大数据挖掘潜在的商业价值,如何在企业中实实在在的应用大数据...

2018-11-21 17:31:35 529

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除