LJF的博客-CSDN博客

原创四 Nifi 处理器初体验以及常用组件说明

开始前奏Nifi已经提供了很多可用的Processor资源，但是某些时候你依然需要去开发属于你自己的Processor，例如从某些特殊的数据库中提取数据、提取不常见的文件格式，或者其他特殊情况。官方开发手册基于maven创建项目使用命令创建项目PS: 需要配置maven的path, 保证 mvn 命令可用指定目录执行, 项目就创建在该目录下, 创建命令如下,:mvn archetype:generate -DarchetypeGroupId=org.apache.nifi -Darchetyp

2021-01-22 11:18:55 418

原创三 Apache Nifi 中常用组件详解

如果还没有了解Nifi的定义，或者还没有安装好Nifi可以参照Nifi单机版搭建常用组件处理器( processor )nifi内部提供了各个处理器模块, 根据不同的需求, 选择不同的处理器进行拼装, 从而组成一个完整的流处理组.数据流传入点（input-port）虽说是数据流输入点，但是并不是整体数据流的起点。它是作为组与组之间的数据流连接的传入点与输出点。数据流输出点（output-port）同理上面的输入点。它是作为组与组之间的数据流连接的传入点与输出点。组(process-.

2021-01-21 19:58:57 580 3

原创 PyHive(遇到的坑)以及一些ETl使用函数

TEL操作使用函数：截取出一个字段中的数字部分select taskId,regexp_extract(regCapital,'([a-zA-Z0-9]+)',1) from test001;使用函数过滤将*号替换（hive中没有replace函数）select regexp_replace(businessscope,'*','') from test003;环境准备：Anaconda整合python(用的3.7版本)有两种方式：基于pyhive连接hive。基于impyla连接hi

2020-06-09 20:08:26 1356

原创 case when then else end 行转列/列转行

- 行转列(多行转单列)-- 数据表 row2col_1：col1 col2 col3a b 1a b 2a b 3c d 4c d 5c d 6-- 将其转化为:col1 col2 col3a ...

2020-02-27 21:49:36 723

转载 Spark数据倾斜的调优

一、数据倾斜调优1. 调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题，以保证Spark作业的性能。2. 数据倾斜发生时的现象绝大多数task执行的都非常的快,但个别task执行极慢,比如，总共有1000个task，997个task都在1分钟之内执行完了，但是剩余...

2020-02-17 16:41:00 97

原创二 NIFI环境搭建-单机

1, 运行环境准备。Apache nifi即可运行在Windows平台，也可运行在Linux平台，需要安装jdk（nifi 1.x以上需要jdk8以上，0.x需jdk7以上）和maven（至少3.1.0以上版本）。2, 下载NIFI下载地址下载当前版本的NiFi二进制工程，目前最新的版本为1.9.2。按需下载!3, 修改默认端口同一系统启动多个服务时, 避免端口冲突, 建议修改默认...

2020-02-12 14:37:45 476

原创一 Apache NiFi

Apache Nifi 概念1.1, NIFI简介Apache NiFi 是一个易于使用，功能强大且可靠的系统，用于处理和分发数据。可以自动化管理系统间的数据流。它支持高度可配置的指示图的数据路由、转换和系统中介逻辑，支持从多种数据源动态拉取数据。NiFi原来是NSA的一个项目，目前已经代码开源，是Apache基金会的顶级项目之一。NiFi是基于Java的，使用Maven支持包的构建管理。 ...

2020-02-12 14:25:01 286

原创根据经纬度坐标计算两点之间线段的交点

根据两条线段计算交叉点，不算延长线上的点Python版本

2022-10-26 16:53:28 847 1

原创 RFE模型从入门到实践

RFERFE模型基于用户的普通行为（非转化或交易行为）产生----采集数据得到含义：最近一次访问时间R（ Recency）访问频率 F（Frequency）页面互动度 E（Engagements）RFE模型用途未登录用户的价值数据分析登录用户价值数据分析用户活跃分群或价值区分数据来源：对于RFE的数据来源，从企业自己监控的用户行为日志获取。RFE模型开发思路分析：思路1：基于三个维度值做用户群体划分和解读，对用户的活跃度做分析。哪一个维度数值较低可以通.

2021-01-08 19:53:19 3417

原创 PyMongo2Es常见问题汇总

1 插入数据出现连接Es Timeout错误展示raise ConnectionTimeout("TIMEOUT", str(e), e) elasticsearch.exceptions.ConnectionTimeout: ConnectionTimeout caused by - ReadTimeoutError(HTTPConnectionPool(host='es-cn-zz11rb9fv000fj1pe.public.elasticsearch.aliyuncs.com', port=920

2021-01-08 17:48:37 940

weixin_43401381的博客