笔记
文章平均质量分 71
LJF的博客
预测未来的最好办法,就是把它创造出来!
展开
-
三 Apache Nifi 中常用组件详解
如果还没有了解Nifi的定义,或者还没有安装好Nifi可以参照Nifi单机版搭建常用组件处理器( processor )nifi内部提供了各个处理器模块, 根据不同的需求, 选择不同的处理器进行拼装, 从而组成一个完整的流处理组.数据流传入点(input-port)虽说是数据流输入点,但是并不是整体数据流的起点。它是作为组与组之间的数据流连接的传入点与输出点。数据流输出点(output-port)同理上面的输入点。它是作为组与组之间的数据流连接的传入点与输出点。组(process-.原创 2021-01-21 19:58:57 · 657 阅读 · 3 评论 -
RFE模型从入门到实践
RFERFE模型基于用户的普通行为(非转化或交易行为)产生----采集数据得到含义:最近一次访问时间R( Recency)访问频率 F(Frequency)页面互动度 E(Engagements)RFE模型用途未登录用户的价值数据分析登录用户价值数据分析用户活跃分群或价值区分数据来源:对于RFE的数据来源, 从企业自己监控的用户行为日志获取。RFE模型开发思路分析:思路1:基于三个维度值做用户群体划分和解读,对用户的活跃度做分析。哪一个维度数值较低可以通.原创 2021-01-08 19:53:19 · 3613 阅读 · 0 评论 -
PyMongo2Es常见问题汇总
1 插入数据出现连接Es Timeout错误展示raise ConnectionTimeout("TIMEOUT", str(e), e) elasticsearch.exceptions.ConnectionTimeout: ConnectionTimeout caused by - ReadTimeoutError(HTTPConnectionPool(host='es-cn-zz11rb9fv000fj1pe.public.elasticsearch.aliyuncs.com', port=920原创 2021-01-08 17:48:37 · 1024 阅读 · 0 评论 -
使用Python将MongoDB数据同步到Elasticsearch
使用Python将MongoDB数据同步到Elasticsearch版本说明:Python 3.7 PyMongo:3.11.0 Elasticsearch:5.5.3话不多说直接鲁码(如遇到什么问题欢迎留言讨论)# coding:utf8# 将mongodb中的数据同步到Es中from pymongo import MongoClientfrom elasticsearch import Elasticsearch, helpersimport jsonimport logging#原创 2020-12-31 10:32:54 · 488 阅读 · 3 评论 -
PyHive(遇到的坑)以及一些ETl使用函数
TEL操作使用函数:截取出一个字段中的数字部分select taskId,regexp_extract(regCapital,'([a-zA-Z0-9]+)',1) from test001;使用函数过滤将*号替换(hive中没有replace函数)select regexp_replace(businessscope,'*','') from test003;环境准备:Anaconda整合python(用的3.7版本)有两种方式:基于pyhive连接hive。基于impyla连接hi原创 2020-06-09 20:08:26 · 1412 阅读 · 0 评论 -
HBASE、HDFS、Redis、传统数据库、Hive的区别
1、HDFS为分布式存储提供文件系统针对存储大尺寸的文件进行优化,不需要对HDFS上的文件进行随机读写直接使用文件数据模型不灵活使用文件系统和处理框架优化一次写入,多次读取的方式2、HBase提供表状的面向列的数据存储针对表状数据的随机读写进行优化使用key-vale操作数据提供灵活的数据模型使用表状存储,支持MapReduce,依赖HDFS优化了多次读,以及多次写...原创 2020-03-01 20:06:47 · 1110 阅读 · 0 评论 -
case when then else end 行转列/列转行
- 行转列(多行转单列)-- 数据表 row2col_1:col1 col2 col3a b 1a b 2a b 3c d 4c d 5c d 6-- 将其转化为:col1 col2 col3a ...原创 2020-02-27 21:49:36 · 748 阅读 · 0 评论