自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 简历信息提取算法-学习笔记(三)

本文是的AIStduio 简历解析系列文章的学习笔记。NLP入门学习笔记

2024-02-27 19:41:37 799

原创 简历信息提取算法-学习笔记(二)

本文是的AIStduio 简历解析系列文章的学习笔记。NLP入门学习笔记

2024-02-27 18:57:43 950

原创 【jupyterNotebook】使用记录

新建的conda环境,怎样在jupyternotebook中使用。4步为Jupyter Notebook添加Conda环境

2024-02-27 14:57:22 114

原创 简历信息提取算法-学习笔记(一)

AIStduio 简历信息提取系列文章笔记NLP入门学习笔记

2024-02-02 16:35:52 280

原创 HiveSQL-历史数据汇总

怎么将每个月的数据汇总,汇总成字符串 “0101010” 的形式?字符串的长度是这个月天数的总日期,比如1月份就有31个字符,2月是29或者28个字符?tableA 数据表字段:emp_id ,pos_id,pos_nm,job_id,date。其中date是yyyymmdd形式存放的日期。现在有员工的职位历史变动数据。

2023-12-29 15:23:20 413 1

原创 HiveSQL查看数据表中缺少哪些分区的数据

现在有一张数据表tableA,有历史很多年的数据,分区字段是date(yyyymmdd),怎么检查有没有某天的数据缺少?

2023-12-29 15:16:12 371 1

原创 拉链表初始化

目前有员工职位变动明细数据,按天存放。目标是得到员工职位变动的拉链表。原始数据表tableA,存放员工在每一天的岗位&职位信息。tableA的字段:emp_id, pos_id, pos_nm, job_id, datedate的形式是 yyyymmdd在网上看到的拉链表初始化,都是先写入第一天的数据,然后每一天往里增加,比较麻烦。

2023-12-29 15:12:29 399 1

原创 HiveSQL 解析Array/Array<struct>格式字段

HiveSQL如何展开Array/Array格式字段?使用LATERAL VIEW explode() 方法…目录1、解析Array格式列展开函数**array行展开→explode****array列展开统计各取值出现次数**2、解析Array格式参考网页:1、解析Array格式列展开函数EXPLODE(col):将hive一列中复杂的array或者map结构拆分成多行。LATERAL VIEW:用法:LATERAL VIEW udtf(expression) tableAlias AS col

2021-03-11 20:40:24 7985

原创 HiveSQL 中 AND 和 OR 的优先级

在Hive SQL中, AND 是比 OR 的优先级要高的,如何证明?写个判断语句测试输入:select case when 1>0 and 0>1 then "true" else "false" end;输出:`+-----------------------------------------------------------+--+``| CASE WHEN ((1 > 0) AND (0 > 1)) THEN true ELSE false END |

2021-03-11 20:37:09 2761 1

原创 HiveSQL 查询语句

一、基本查询(select…from…)列查询查看列,某几列--全表查询 (使用 * 查询会返回全部列)select * from tableA;--全表查询 指定时间分区(date)select * from tableA where date = 20210205;--全表查询 限制100条返回select * from tableA limit 100;--指定列 查询select uid,id_type from tableA;--指定列 重命名select uid col1

2021-03-11 20:34:37 1185

原创 使用 Spark DataFrame 构建统计类特征 (scala版)

行缺失数/率 统计val DataDF = Seq(("Ram",null,"MCA","Bangalore"),(null,"25",null,null),(null,"26","BE",null),("Raju","21","Btech","Chennai")).toDF("name","age","degree","Place")//列名val columns=DataDF.columnsval cnt=DataDF.count()// 统计每列的缺失记录数val missing_cn

2021-03-11 20:28:59 535

原创 Spark DataFrame 统计行/列缺失率 (scala版)

行缺失数/率 统计进行特征工程得到特征后,如何统计dataframe格式特征行/列的缺失率?val DataDF = Seq(("Ram",null,"MCA","Bangalore"),(null,"25",null,null),(null,"26","BE",null),("Raju","21","Btech","Chennai")).toDF("name","age","degree","Place")//列名val columns=DataDF.columnsval cnt=DataDF

2021-03-11 20:27:30 1913 1

原创 Spark DataFrame 常用操作 Filter/groupBy/agg/pivot 方法 (scala版)

SparkDataFrame 常用操作 Filter/groupBy/agg/pivot方法先构造一组数据val dataDF = List( ("id1", "click","0108",1,1.0), ("id1", "view","0101",2,1.0), ("id2", "buy","0105",3,7.0), ("id2", "click","0104",4,9.0), ("id2", "click","0105",5,1.0), ("id3", "buy","0106",

2021-03-11 20:09:50 2761

原创 Qt + gdal读取geotiff头文件

Qt + gdal 读取geotiff头文件.pro文件增加:INCLUDEPATH += E:/opencv/build/includeCONFIG(debug, debug|release):{LIBS += -LE:/opencv/build/x86/vc10/lib \-lopencv_core2411d \-lopencv_imgproc2411d \-lopencv_hi...

2020-01-29 23:01:49 1124

转载 C++,在windows下调用子进程,并获得子进程的返回值 (在Qt平台实现)

copy自c++,在windows下调用子进程,并获得子进程的返回值。只是为了自己学习整理一下。侵删被调用的进程在windows下,将子进程函数(subapp.cpp)封装成exe。封装成exe的方法见打包的文章。subapp.cpp代码:我注释掉了 getchar(); 这样不会卡在子进程。#pragma execution_character_set("utf-8")#in...

2019-12-23 22:24:40 971

原创 Qt: for循环产生多线程,主线程向子线程发送信号

myclass.cpp 主线程在myclass.cpp中写主线程:注意:一定要在for循环外面发送信号要传参就向子线程构造函数中传#pragma execution_character_set("utf-8")#include "myclass.h"#include <mythread.h>#include <QDebug>#include <...

2019-12-23 21:37:39 2509

转载 如何产生满足高斯分布的随机数据

问题假设随机变量z服从标准正态分布N(0,1)N(0,1)N(0,1) ,X=δz+μX = \delta z + \muX=δz+μ。则XXX服从均值为μ\muμ,方差为δ\deltaδ的高斯分布N(μ,δ2)N(\mu,\delta^2)N(μ,δ2)。采样方法常见的采样方法有逆变换法、拒绝采样法 、重要性采样及其重采样、马尔科夫蒙特卡洛采样法等。那么高斯分布如何采样?逆变换法...

2019-12-23 21:25:15 3901

原创 Geotiff 位深度转换: 32位转8位/16位转32位

位深度转换 32位转8位我真的找遍了全网都没有这么一个小小的位数转换…哭…用ENVI Classic 打开图片ENVI5.3–>ENVI Classic 5.3–>File–>Open Image File -->Load Band保存为8位的File–>Save Image as -->Image File -->选择8位–>...

2019-04-17 20:58:47 4996

转载 Qt 设置库相对路径 + 修改打包exe的图标

设置动态链接库的相对路径网页链接 :&amp;lt;https://blog.csdn.net/kangkanglhb88008/article/details/80591350 &amp;gt;将 D:\换为&quot;$$PWD&quot;将库与.pro文件放在同一个文件夹设置Qt打包工程.exe文件的图标网页链接 :https://blog.csdn.net/u014546553/article/d...

2019-01-16 15:54:39 643

原创 Qt release版打包

网页链接:包含OpenCV开源库的程序打包发行需知https://blog.csdn.net/weixinhum/article/details/38443185https://bbs.csdn.net/topics/390802925Qt release版打包过程:以release方式调试程序,把exe文件复制 放入一个新建空的文件夹中。打开QT命令行(QT 32-bit...

2019-01-16 15:49:45 862

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除