- 博客(633)
- 资源 (13)
- 收藏
- 关注

原创 用户行为分析之用户行为路径计算模型
前提什么是用户行为路径? 1用户路径分析,顾名思义,用户在APP或网站中的访问行为路径。为了衡量网站优化的效果或营销推广的效果,以及了解用户行为偏好,时常要对访问路径的转换数据进行分析。以电商为例,买家从登录网站/APP到支付成功要经过首页浏览、搜索商品、加入购物车、提交订单、支付订单等过程。而在用户真实的选购过程是一个交缠反复的过程,例如提交订单后,用户可能会返回首页继续搜索商品,也可能去取消订单,每一个路径背后都有不同的动机。与其他分析模型配合进行深入分析后,能为找到快速用户动机,从而引领用户走向
2021-08-02 08:19:10
702
2

原创 【Hive SQL 新算法】求任意时间段连续登录N天用户数/用户明细/最长连续登陆天数/用户留存率问题总结
注:本计算方法原创来源于:https://blog.csdn.net/hweinifengkuang/article/details/92832309建测试表CREATE TABLE `user_login_table`( `user_id` int COMMENT '用户ID', `login_date` date COMMENT '登录日期') 插入1000条测试数据数据见文末写SQL-- 第二段 根据登陆时间减去排列顺序 得出用户连续登陆的分组SELECT user
2021-07-31 15:51:31
1251

原创 shell 脚本小技巧【持续更新中】
文章目录shell 脚本中,使用vim打开文件非编辑模式下,光标放在数字上,使用 Ctrl+a 组合,可以使数字+1
2021-07-17 19:02:59
623
原创 windows中使用imgkit时报错No wkhtmltoimage executable found: “command not found“
首先看官网:https://wkhtmltopdf.org/
2023-05-22 14:37:57
26
转载 hive行转列过程中使用LATERAL VIEW遇到空MAP或者空数组的情况
【代码】hive行转列过程中使用LATERAL VIEW遇到空MAP或者空数组的情况。
2023-05-19 10:34:11
13
原创 【问题记录】hiveserver2 提交SQL任务慢原因排查
同样一个SQL,在hive cli执行,提交了SQL之后立马就会提交到Yarn上,但是通过hiveserver2 提交,就会经过很长一段时间才会提交到Yarn上,甚至有时候直接报错time out。
2023-05-15 11:16:45
44
原创 checkpoint Kafka Offset commit failed问题记录
checkpoint Kafka Offset commit failed
2023-05-08 10:03:32
31
2
转载 Word打字很卡顿 Office打字时反应慢 延迟 Excel输入迟钝 PPT卡死的终极解决办法大全(24种方法)
下面就来分享一下处理 Word 文档卡顿 Excel 表格缓慢的一些方法。
2022-11-05 20:33:25
3534
原创 Excel里实现 sum(case when xxx then xxx else xxx end)的用法
【代码】Excel里实现 sum(case when xxx then xxx else xxx end)的用法。
2022-09-08 10:02:41
855
原创 正则表达式 不以特定 字符开头的行 或者 不包含特定 字符串的行
比如匹配不以a开头的结果作为定位符时, 表示字符串的开始, 表示字符串的结束,不以Lua 或者 Java开头的行:
2022-07-12 10:31:15
2122
1
原创 【Linux】文件,每行内容按“\t“切割,筛选出内容包含“;“ 的 或者 切割后字段数小于16的 行
答案:cat file.txt | awk -F "\t" '{if(NF<16 || index($0,";")) print $0}'这里用到了awk工具。主要用到了以下知识点:-F参数:指定分隔符,可指定一个或多个awk中的内置变量常用字符串函数awk的if语句...
2022-04-21 10:05:40
1168
原创 Blink 任务运行报错
Blink 任务总是报错java.lang.Exception: Exception while creating StreamOperatorStateContext. at org.apache.flink.streaming.api.operators.StreamTaskStateInitializerImpl.streamOperatorStateContext(StreamTaskStateInitializerImpl.java:216) at org.apache.flink.stre
2022-04-20 14:06:23
503
2
转载 CentOS 7.X yum install没有可用软件包
已加载插件:fastestmirror, langpacksLoading mirror speeds from cached hostfilebase: mirrors.aliyun.comextras: mirrors.aliyun.comupdates: mirrors.dgut.edu.cn没有可用软件包 htop。错误:无须任何处理遇见这种情况,先执行:sudo yum install epel-release然后再试试yum install 其他安装包...
2022-04-15 16:11:34
610
原创 StarRocks 如何获取profile
1通过 set is_report_success=true 可以打开profile的上报。2在MySQL客户端中执⾏你的sql语句:3打开浏览器,社区版⽤⼾在 http//:FE_IP:FE_HTTP_PORT/query 可以看到当前的查询和Profile信息:进⼊然后复制profile信息...
2022-04-12 13:47:43
760
原创 hive中的爆炸函数在presto中的写法
hive中的爆炸函数写法:SELECT student, scoreFROM testsLATERAL VIEW explode(scores) t AS score;爆炸函数在presto中的写法:SELECT student, scoreFROM testsCROSS JOIN UNNEST(scores) AS t (score);
2022-03-25 14:25:44
2067
原创 Windows10 从wsl1与升级到wsl2
wsl2支持docker安装,但是我本地wsl安装的是版本1查看wsl版本:打开power shell 执行 wsl --list -v接下来就升级一下wsl的版本。
2022-03-23 18:54:40
2565
原创 在使用flinkcdc同步多个表时遇到报错:A slave with the same server_uuid/server_id as this slave has connected to the
报错信息:flink version:flink-1.13.5cdc version:2.1.1 在使用flinkcdc同步多个表时遇到报错:org.apache.flink.runtime.JobException: Recovery is suppressed by FixedDelayRestartBackoffTimeStrategy(maxNumberRestartAttempts=3, backoffTimeMS=10000)at org.apache.flink.runtime.e
2022-02-17 14:01:02
3652
2
原创 Flink中的JobListener官方文档
ExecutionEnvironment 与 StreamExecutionEnvironment 均有 registerJobListener 方法,可以传进一个 JobListener,在作业提交以及完成的时候调用对应方法。当然,这需要你提交作业的客户端程序一直存在,直到作业完成并且对应函数被调用。https://nightlies.apache.org/flink/flink-docs-master/api/java/org/apache/flink/api/java/ExecutionEnviro
2022-01-10 19:39:07
1487
转载 Python 命令行之旅
本文来自:https://github.com/HelloGitHub-Team/Article文章目录Python 命令行之旅:初探 argparse前言介绍快速开始设置解析器定义参数解析命令行业务逻辑代码梳理小结Python 命令行之旅:深入 argparse(一)前言参数动作参数类别可选参数参数类型参数默认值位置参数可选值互斥参数可变参数列表小结Python 命令行之旅:深入 argparse(二)前言帮助自动生成帮助自定义帮助参数组选项参数前缀共享解析器嵌套解析器自定义动作小节Python 命令行
2021-12-31 20:09:05
312
9
转载 解决 python json.dumps() 中文乱码问题
python 输出一串中文字符,在控制台上(控制台使用UTF-8编码)通过print 可以正常显示,但是写入到文件中之后,中文字符都输出成ascii编码了。英文字符能正常显示可读字符。原因:json.dumps 序列化时默认使用的ascii编码,想输出真正的中文需要指定ensure_ascii=False:更深入分析,是应为dJSON object 不是单纯的unicode实现,而是包含了混合的unicode编码以及已经用utf-8编码之后的字符串。可行的方式如下:import osimport o
2021-12-21 20:17:51
1464
5
原创 flinksql的await
本文来自社区String initialValues = "INSERT INTO kafka\n" + "SELECT CAST(price AS DECIMAL(10, 2)), currency, " + " CAST(d AS DATE), CAST(t AS TIME(0)), CAST(ts AS TIMESTAMP(3))\n" + "FROM (VALUES (2.02,'Eur
2021-12-21 19:25:11
484
4
原创 hive beeline 链接impala
beeline -d "com.cloudera.impala.jdbc41.Driver" \-u "jdbc:impala://xxxx:21050/;AuthMech=1;KrbRealm=.COM.LOCAL;KrbHostFQDN=xxx;KrbServiceName=impala"
2021-12-20 19:33:03
1089
原创 房贷提前还款计算器
招商银行提供的房贷提前还款计算器,不过再其他银行贷款同样适用:https://www.cmbchina.com/CmbWebPubInfo/Cal_Loan_Per.aspx?chnl=dkjsq:计算结果:
2021-12-18 13:55:22
1404
原创 【算法】求n个字符的任意组合
题目如:有字符a, b, c, d求它们的任意种组合:得到结果:a,b,c,d,ab,ac,ad,bc,bd,cd,bcd,acd,abd,abc,abcdpython实现:import math# 分组列group = ['a', 'b', 'c', 'd']le = len(group)all_num = int(math.pow(2, le)-1)print('一共有 %d 种分组' % all_num)for i in range(1, all_num+1): t
2021-12-10 21:15:29
672
原创 python中求 两个set、list、dict 的合并,交集,差集
1. 两个set的合并>>> a = {1,2,3}>>> b = {3,4,5}>>> c = a | b>>> print(c){1, 2, 3, 4, 5}
2021-12-09 10:14:58
4025
转载 一个开源免费的画流程图的工具
一款简洁强大的绘图工具。免费开源可以自行部署也可以在线使用,功能上直追 Microsoft Visio。支持流程图、序列图、网络拓扑图、甘特图、思维导图、模型图等,还能导出多种格式类型比如 png、svg、PDF、HTML 和 VSDX 格式(Microsoft Visio 图形格式)。github地址:https://github.com/jgraph/drawio...
2021-12-03 19:47:15
398
转载 xlwt设置单元格格式
# coding:utf-8import patterns as patternsimport xlwtimport timei = 0book = xlwt.Workbook(encoding='utf-8')sheet = book.add_sheet('sheet1', cell_overwrite_ok=True)# 如果出现报错:Exception: Attempt to overwrite cell: sheetname='sheet1' rowx=0 colx=0# 需要加上:
2021-12-03 16:52:29
663
原创 WSL 安装 mysql 8.0.27 记录
WSL装mysql,默认版本是 8.0.278.0.27版本与之前的版本命令有所变化,装的过程中踩了不少坑,这里一一记录整个安装过程:sudo apt-get updatesudo apt-get install mysql-serversudo mysql_secure_installation## 启动mysqlsudo service mysqld start## 查看mysql启动情况ps -ef | grep mysql## 直接回车 默认root 没有密码sudo my
2021-11-26 20:00:22
787
转载 HIVE 查询结果中显示库名、列名(不带表名)
<property> <name>hive.cli.print.header</name> <value>true</value> <description>Whether to print the names of the columns in query output.</description> </property><property>
2021-11-26 17:30:35
1046
原创 presto 中的 substr 函数 与 Hive中的 substr 函数用法不同
presto语法:substr(string, start, length) → varchar而且start必须从1开始Hive 中语法:substr(STRING|BINARY A, INT start [, INT len])start 可以从0开始,也可以从1开始,结果是一样的这点要注意
2021-11-24 15:13:07
2538
原创 flink SQL报错java.lang.NoSuchMethodError: com.google.common.base.Preconditions.checkArgument(ZLj
问题flink SQL连接hive以及hudi 报错java.lang.NoSuchMethodError: com.google.common.base.Preconditions.checkArgument(ZLjava/lang/String;Ljava/lang/Object;)V,查询资料后发现就是guava版本冲突造成的。hive 3.1.2版本内置的guava是19.0版本的,而hadoop中的guava是27.0-jre版本的,flink内置的guava也有多个版本。彼此之间版本就冲突了
2021-10-12 21:21:01
2045
原创 查看主机外网IP地址
命令行查询(详细):UNIX/Linux:# curl cip.ccWindows:>telnet cip.cc >ftp cip.cc命令行查询(纯ip):UNIX/Linux:# curl ip.cip.cc
2021-09-28 17:12:03
479
原创 备份Hive中的建表语句
需要做数据备份,将hive中的表结构全部导出来:$ cat create_table_statement.sh#/bin/bashdb=odstbls=`hive -e "use $db;show tables"`for tbl in $tbls;do statement=`hive -e "use $db;show create table $tbl"` echo $statement >> $db"_statement.sql"done...
2021-09-27 18:50:22
371
原创 Flink + Hudi demo 环境
版本flink 版本: Flink 1.12.5Scala版本:2.12Hudi版本:0.9.0将hudi-flink-bundle_2.12-0.9.0.jar放入flink的lib目录下。
2021-09-26 20:07:43
1042
原创 SparkSQL查询Apache Hudi表进入命令
bin/spark-sql --jars hudi-spark3-bundle_2.12-0.9.0.jar \--packages org.apache.spark:spark-avro_2.12:3.1.2 \--conf 'spark.serializer=org.apache.spark.serializer.KryoSerializer' \--conf 'spark.sql.extensions=org.apache.spark.sql.hudi.HoodieSparkSessionExt
2021-09-23 15:12:21
468
原创 cloudera-repos 地址
cloudera-repos 地址:https://repository.cloudera.com/artifactory/cloudera-repos/
2021-09-23 13:33:29
539
原创 spark写hudi:NoSuchMethodError: org.apache.jetty.server.session.SessionHandler.setHttpOnly(Z)V
前提Hudi version : 0.9.0Spark version : 3.1.2Hive version : 2.1.1-cdh6.3.2Hadoop version : 3.0.0-cdh6.3.2报错日志:scala> df.write.format("hudi"). | options(getQuickstartWriteConfigs). | option(PRECOMBINE_FIELD_OPT_KEY, "ts"). | opti
2021-09-18 17:23:25
804
hadoop-2.7.2.zip
2020-09-16
pentaho-aggdesigner-algorithm-5.1.5-jhyde.jar
2020-08-19
sqoop-1.4.6.2.3.99.0-195.jar..zip
2020-08-14
javax.jms-1.1.jar.7z
2020-08-14
十大数据分析模型详解_白皮书.pdf
2020-06-24
mongodb-win32-x86_64-enterprise-windows-64-4.2.1-signed.msi
2020-06-05
Apache Flink结合Apache Kafka实现端到端的一致性语义.pdf
2019-05-16
数据仓库数据分层结构
2019-03-02
HBase权威指南
2019-03-02
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人