- 博客(20)
- 收藏
- 关注
原创 【jupyterNotebook】使用记录
新建的conda环境,怎样在jupyternotebook中使用。4步为Jupyter Notebook添加Conda环境
2024-02-27 14:57:22
114
原创 HiveSQL-历史数据汇总
怎么将每个月的数据汇总,汇总成字符串 “0101010” 的形式?字符串的长度是这个月天数的总日期,比如1月份就有31个字符,2月是29或者28个字符?tableA 数据表字段:emp_id ,pos_id,pos_nm,job_id,date。其中date是yyyymmdd形式存放的日期。现在有员工的职位历史变动数据。
2023-12-29 15:23:20
413
1
原创 HiveSQL查看数据表中缺少哪些分区的数据
现在有一张数据表tableA,有历史很多年的数据,分区字段是date(yyyymmdd),怎么检查有没有某天的数据缺少?
2023-12-29 15:16:12
371
1
原创 拉链表初始化
目前有员工职位变动明细数据,按天存放。目标是得到员工职位变动的拉链表。原始数据表tableA,存放员工在每一天的岗位&职位信息。tableA的字段:emp_id, pos_id, pos_nm, job_id, datedate的形式是 yyyymmdd在网上看到的拉链表初始化,都是先写入第一天的数据,然后每一天往里增加,比较麻烦。
2023-12-29 15:12:29
399
1
原创 HiveSQL 解析Array/Array<struct>格式字段
HiveSQL如何展开Array/Array格式字段?使用LATERAL VIEW explode() 方法…目录1、解析Array格式列展开函数**array行展开→explode****array列展开统计各取值出现次数**2、解析Array格式参考网页:1、解析Array格式列展开函数EXPLODE(col):将hive一列中复杂的array或者map结构拆分成多行。LATERAL VIEW:用法:LATERAL VIEW udtf(expression) tableAlias AS col
2021-03-11 20:40:24
7985
原创 HiveSQL 中 AND 和 OR 的优先级
在Hive SQL中, AND 是比 OR 的优先级要高的,如何证明?写个判断语句测试输入:select case when 1>0 and 0>1 then "true" else "false" end;输出:`+-----------------------------------------------------------+--+``| CASE WHEN ((1 > 0) AND (0 > 1)) THEN true ELSE false END |
2021-03-11 20:37:09
2761
1
原创 HiveSQL 查询语句
一、基本查询(select…from…)列查询查看列,某几列--全表查询 (使用 * 查询会返回全部列)select * from tableA;--全表查询 指定时间分区(date)select * from tableA where date = 20210205;--全表查询 限制100条返回select * from tableA limit 100;--指定列 查询select uid,id_type from tableA;--指定列 重命名select uid col1
2021-03-11 20:34:37
1185
原创 使用 Spark DataFrame 构建统计类特征 (scala版)
行缺失数/率 统计val DataDF = Seq(("Ram",null,"MCA","Bangalore"),(null,"25",null,null),(null,"26","BE",null),("Raju","21","Btech","Chennai")).toDF("name","age","degree","Place")//列名val columns=DataDF.columnsval cnt=DataDF.count()// 统计每列的缺失记录数val missing_cn
2021-03-11 20:28:59
535
原创 Spark DataFrame 统计行/列缺失率 (scala版)
行缺失数/率 统计进行特征工程得到特征后,如何统计dataframe格式特征行/列的缺失率?val DataDF = Seq(("Ram",null,"MCA","Bangalore"),(null,"25",null,null),(null,"26","BE",null),("Raju","21","Btech","Chennai")).toDF("name","age","degree","Place")//列名val columns=DataDF.columnsval cnt=DataDF
2021-03-11 20:27:30
1913
1
原创 Spark DataFrame 常用操作 Filter/groupBy/agg/pivot 方法 (scala版)
SparkDataFrame 常用操作 Filter/groupBy/agg/pivot方法先构造一组数据val dataDF = List( ("id1", "click","0108",1,1.0), ("id1", "view","0101",2,1.0), ("id2", "buy","0105",3,7.0), ("id2", "click","0104",4,9.0), ("id2", "click","0105",5,1.0), ("id3", "buy","0106",
2021-03-11 20:09:50
2761
原创 Qt + gdal读取geotiff头文件
Qt + gdal 读取geotiff头文件.pro文件增加:INCLUDEPATH += E:/opencv/build/includeCONFIG(debug, debug|release):{LIBS += -LE:/opencv/build/x86/vc10/lib \-lopencv_core2411d \-lopencv_imgproc2411d \-lopencv_hi...
2020-01-29 23:01:49
1124
转载 C++,在windows下调用子进程,并获得子进程的返回值 (在Qt平台实现)
copy自c++,在windows下调用子进程,并获得子进程的返回值。只是为了自己学习整理一下。侵删被调用的进程在windows下,将子进程函数(subapp.cpp)封装成exe。封装成exe的方法见打包的文章。subapp.cpp代码:我注释掉了 getchar(); 这样不会卡在子进程。#pragma execution_character_set("utf-8")#in...
2019-12-23 22:24:40
971
原创 Qt: for循环产生多线程,主线程向子线程发送信号
myclass.cpp 主线程在myclass.cpp中写主线程:注意:一定要在for循环外面发送信号要传参就向子线程构造函数中传#pragma execution_character_set("utf-8")#include "myclass.h"#include <mythread.h>#include <QDebug>#include <...
2019-12-23 21:37:39
2509
转载 如何产生满足高斯分布的随机数据
问题假设随机变量z服从标准正态分布N(0,1)N(0,1)N(0,1) ,X=δz+μX = \delta z + \muX=δz+μ。则XXX服从均值为μ\muμ,方差为δ\deltaδ的高斯分布N(μ,δ2)N(\mu,\delta^2)N(μ,δ2)。采样方法常见的采样方法有逆变换法、拒绝采样法 、重要性采样及其重采样、马尔科夫蒙特卡洛采样法等。那么高斯分布如何采样?逆变换法...
2019-12-23 21:25:15
3901
原创 Geotiff 位深度转换: 32位转8位/16位转32位
位深度转换 32位转8位我真的找遍了全网都没有这么一个小小的位数转换…哭…用ENVI Classic 打开图片ENVI5.3–>ENVI Classic 5.3–>File–>Open Image File -->Load Band保存为8位的File–>Save Image as -->Image File -->选择8位–>...
2019-04-17 20:58:47
4996
转载 Qt 设置库相对路径 + 修改打包exe的图标
设置动态链接库的相对路径网页链接 :&lt;https://blog.csdn.net/kangkanglhb88008/article/details/80591350 &gt;将 D:\换为"$$PWD"将库与.pro文件放在同一个文件夹设置Qt打包工程.exe文件的图标网页链接 :https://blog.csdn.net/u014546553/article/d...
2019-01-16 15:54:39
643
原创 Qt release版打包
网页链接:包含OpenCV开源库的程序打包发行需知https://blog.csdn.net/weixinhum/article/details/38443185https://bbs.csdn.net/topics/390802925Qt release版打包过程:以release方式调试程序,把exe文件复制 放入一个新建空的文件夹中。打开QT命令行(QT 32-bit...
2019-01-16 15:49:45
862
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人