自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 四 Nifi 处理器 初体验以及常用组件说明

开始前奏Nifi已经提供了很多可用的Processor资源,但是某些时候你依然需要去开发属于你自己的Processor,例如从某些特殊的数据库中提取数据、提取不常见的文件格式,或者其他特殊情况。官方开发手册基于maven创建项目使用命令创建项目PS: 需要配置maven的path, 保证 mvn 命令可用指定目录执行, 项目就创建在该目录下, 创建命令如下,:mvn archetype:generate -DarchetypeGroupId=org.apache.nifi -Darchetyp

2021-01-22 11:18:55 418

原创 三 Apache Nifi 中常用组件详解

如果还没有了解Nifi的定义,或者还没有安装好Nifi可以参照Nifi单机版搭建常用组件处理器( processor )nifi内部提供了各个处理器模块, 根据不同的需求, 选择不同的处理器进行拼装, 从而组成一个完整的流处理组.数据流传入点(input-port)虽说是数据流输入点,但是并不是整体数据流的起点。它是作为组与组之间的数据流连接的传入点与输出点。数据流输出点(output-port)同理上面的输入点。它是作为组与组之间的数据流连接的传入点与输出点。组(process-.

2021-01-21 19:58:57 580 3

原创 PyHive(遇到的坑)以及一些ETl使用函数

TEL操作使用函数:截取出一个字段中的数字部分select taskId,regexp_extract(regCapital,'([a-zA-Z0-9]+)',1) from test001;使用函数过滤将*号替换(hive中没有replace函数)select regexp_replace(businessscope,'*','') from test003;环境准备:Anaconda整合python(用的3.7版本)有两种方式:基于pyhive连接hive。基于impyla连接hi

2020-06-09 20:08:26 1356

原创 case when then else end 行转列/列转行

- 行转列(多行转单列)-- 数据表 row2col_1:col1 col2 col3a b 1a b 2a b 3c d 4c d 5c d 6-- 将其转化为:col1 col2 col3a ...

2020-02-27 21:49:36 723

转载 Spark数据倾斜的调优

一、数据倾斜调优1. 调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。2. 数据倾斜发生时的现象绝大多数task执行的都非常的快,但个别task执行极慢,比如,总共有1000个task,997个task都在1分钟之内执行完了,但是剩余...

2020-02-17 16:41:00 97

原创 二 NIFI环境搭建-单机

1, 运行环境准备。Apache nifi即可运行在Windows平台,也可运行在Linux平台,需要安装jdk(nifi 1.x以上需要jdk8以上,0.x需jdk7以上)和maven(至少3.1.0以上版本)。2, 下载NIFI下载地址下载当前版本的NiFi二进制工程,目前最新的版本为1.9.2。按需下载!3, 修改默认端口同一系统启动多个服务时, 避免端口冲突, 建议修改默认...

2020-02-12 14:37:45 476

原创 一 Apache NiFi

Apache Nifi 概念1.1, NIFI简介Apache NiFi 是一个易于使用,功能强大且可靠的系统,用于处理和分发数据。可以自动化管理系统间的数据流。它支持高度可配置的指示图的数据路由、转换和系统中介逻辑,支持从多种数据源动态拉取数据。NiFi原来是NSA的一个项目,目前已经代码开源,是Apache基金会的顶级项目之一。NiFi是基于Java的,使用Maven支持包的构建管理。 ...

2020-02-12 14:25:01 286

原创 根据经纬度坐标计算两点之间线段的交点

根据两条线段计算交叉点,不算延长线上的点Python版本

2022-10-26 16:53:28 847 1

原创 RFE模型从入门到实践

RFERFE模型基于用户的普通行为(非转化或交易行为)产生----采集数据得到含义:最近一次访问时间R( Recency)访问频率 F(Frequency)页面互动度 E(Engagements)RFE模型用途未登录用户的价值数据分析登录用户价值数据分析用户活跃分群或价值区分数据来源:对于RFE的数据来源, 从企业自己监控的用户行为日志获取。RFE模型开发思路分析:思路1:基于三个维度值做用户群体划分和解读,对用户的活跃度做分析。哪一个维度数值较低可以通.

2021-01-08 19:53:19 3417

原创 PyMongo2Es常见问题汇总

1 插入数据出现连接Es Timeout错误展示raise ConnectionTimeout("TIMEOUT", str(e), e) elasticsearch.exceptions.ConnectionTimeout: ConnectionTimeout caused by - ReadTimeoutError(HTTPConnectionPool(host='es-cn-zz11rb9fv000fj1pe.public.elasticsearch.aliyuncs.com', port=920

2021-01-08 17:48:37 940

原创 使用Python将MongoDB数据同步到Elasticsearch

使用Python将MongoDB数据同步到Elasticsearch版本说明:Python 3.7 PyMongo:3.11.0 Elasticsearch:5.5.3话不多说直接鲁码(如遇到什么问题欢迎留言讨论)# coding:utf8# 将mongodb中的数据同步到Es中from pymongo import MongoClientfrom elasticsearch import Elasticsearch, helpersimport jsonimport logging#

2020-12-31 10:32:54 428 3

原创 HBASE、HDFS、Redis、传统数据库、Hive的区别

1、HDFS为分布式存储提供文件系统针对存储大尺寸的文件进行优化,不需要对HDFS上的文件进行随机读写直接使用文件数据模型不灵活使用文件系统和处理框架优化一次写入,多次读取的方式2、HBase提供表状的面向列的数据存储针对表状数据的随机读写进行优化使用key-vale操作数据提供灵活的数据模型使用表状存储,支持MapReduce,依赖HDFS优化了多次读,以及多次写...

2020-03-01 20:06:47 1047

原创 Sqoop中常见的问题

Sqoop的介绍sqoop是Apache旗下一款“Hadoop和关系型服务器 之间传送数据”的工具导入数据:Mysql,Oracle导入数据到Hadoop的HDFS、Hive、Hbase等数据存储系统导出数据:从Hadoop的文件系统中导出数据到关系数据库mysql等将导入或导出命令翻译成mapreduce程序来实现(在翻译出的mapreduce中主要是对inputformat和...

2020-03-01 19:46:58 149

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除