自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

云溪的博客

技术学习

  • 博客(31)
  • 收藏
  • 关注

转载 2020-11-13

Spark SQL中列转行(UNPIVOT)的两种方法正文行列之间的互相转换是ETL中的常见需求,在Spark SQL中,行转列有内建的PIVOT函数可用,没什么特别之处。而列转行要稍微麻烦点。本文整理了2种可行的列转行方法,供参考。本文链接:https://www.cnblogs.com/hhelibeb/p/10310369.html测试数据准备本文的环境是Windows 10, Spark 2.4,开发语言是Python。首先构建一点初始测试数据,from p..

2020-11-13 17:01:14 228

原创 001 OFFSET 函数初识

001 OFFSET 函数初识OFFSET函数的功能为以指定的引用为参照系,通过给定偏移量得到新的引用,返回的引用可以为一个单元格或单元格区域,其语法为:OFFSET(reference, rows, cols, [height], [width]),翻译过程中文就是:OFFSET(参照,偏移行,偏移列,行高,列宽)▌案例如图A1:D7是一个数据区域,我们在这个数据区域中,...

2019-08-22 15:58:46 1205

转载 substring_index(str,delim,count)

substring_index(str,delim,count) str:要处理的字符串 delim:分隔符 count:计数例子:str=www.baidu.com substring_index(str,'.',1) 结果是:www substring_index(str,'.',2) 结果是...

2019-07-08 15:39:22 2267

转载 HIVE中的函数使用

hive的UDF 函数Hive内部自定义函数UDFHIVE UDF整理(一)关系运算等值比较: =语法:A = B操作类型: 所有基本类型描述: 如果表达式A与表达式B相等,则为TRUE;否则为FALSE举例:hive> select 1 from dual where 1=1;1不等值比较: <>语法: A <> B...

2019-07-08 15:33:55 2005

转载 hive 之 行拆列explode,lateral view

1、explodeexplode(ARRAY) 列表中的每个元素生成一行explode(MAP) map中每个key-value对,生成一行,key为一列,value为一列限制:1、No other expressions are allowed in SELECT SELECT pageid, explode(adid_list) AS myCol... is not su...

2019-07-08 11:25:54 408

原创 concat_ws, spilt, sort_array,size

这三个字段,通过各个函数结果concat_ws 用相应符号将各字段连接起来 string类型select concat_ws(',',user_id,mobile,system) as concatfrom statistic.qz_tracklimit 5;concat"13742988,,android""38643821,+8613075351265,...

2019-07-05 19:26:54 688

转载 hive中str_to_map(concat_ws..select subtype ,concat_ws('&',collect_set(cast(from as

源表结构:pcgid string mobilegid string value double 测试数据如下:p1 m1 0.6p1 m2 0.9p2 m1 1.0...

2019-07-05 14:16:50 1558

转载 MySQL -- 行转列 -- GROUP BY MAX(CASE WHEN THEN)

https://www.cnblogs.com/ClassNotFoundException/p/6860615.html列转行:利用max(case when then)SELECT `name`, MAX(CASE WHEN course='语文' THEN score END) AS 语文, MAX(CASE WHEN course='数学' TH...

2019-06-27 18:33:59 1065

转载 Data Grip

Data Grip常用的快捷键总结: 管理数据库连接:Ctrl+Alt+Shift+S 文件视图窗口:Alt+2 进入一个文件:Ctrl+Shift+N 打开最近的文件:Ctrl+E 导航栏:Alt+Home 全局搜索:双击Shift Ctrl+Enter:执行选中的SQL语句 Ctrl+Shift+左右箭头...

2019-06-26 11:27:30 1099

转载 hive 中时间函数

to_date:日期时间转日期函数select to_date('2015-04-02 13:34:12');输出:2015-04-02## 当前日期和时间SELECT current_timestamp();-- 2018-04-28 11:46:03.136## 获取当前日期,当前是 2018-04-28SELECT current_date;ORSELECT curr...

2019-06-25 18:37:01 302

原创 hive 中函数使用

to_date:日期时间转日期函数select to_date('2015-04-02 13:34:12');输出:2015-04-02mysql 中使用 str_to_datedate_sub() 函数从日期减去指定的时间间隔date_sub(date,n)mysql:DATE_SUB(date, INTERVAL n DAY)DATE_ADD() ...

2019-06-25 18:31:13 298 1

原创 mysql 初始登录密码错误,更改密码

ERROR 1045 (28000): Access denied for user 'ODBC'@'localhost' (using password: NO)ERROR 1045 (28000): Access denied for user 'ODBC'@'localhost' (using password: YES) 找到配置文件my.ini ,然后将其打开,可以选择用记事...

2019-06-06 01:00:54 10188 1

原创 np.where()

numpy.where()有两种用法:1. np.where(condition, x, y)满足条件(condition),输出x,不满足输出y。>>> aa = np.arange(10)>>> np.where(aa,1,-1)array([-1, 1, 1, 1, 1, 1, 1, 1, 1, 1]) # 0为Fa...

2019-05-14 19:01:50 1539

原创 numpy中np.c_和np.r_

np.r_是按列连接两个矩阵,就是把两矩阵上下相加,要求列数相等,类似于pandas中的concat()。np.c_是按行连接两个矩阵,就是把两矩阵左右相加,要求行数相等,类似于pandas中的merge()。import numpy as npa = np.array([1, 2, 3])b = np.array([4, 5, 6])c = np.c_[a,b]prin...

2019-05-14 17:50:29 165

转载 numpy.ravel() vs numpy.flatten()

两者所要实现的功能是一致的(将多维数组降位一维),两者的区别在于返回拷贝(copy)还是返回视图(view),numpy.flatten()返回一份拷贝,对拷贝所做的修改不会影响(reflects)原始矩阵,而numpy.ravel()返回的是视图(view,也颇有几分C/C++引用reference的意味),会影响(reflects)原始矩阵。1. 两者的功能>>> ...

2019-05-14 17:41:44 142

原创 cmd怎么进入指定目录

C:\Users\lenovo>F:F:\>cd \pycharm\python机器学习\03 决策树\我的代码F:\pycharm\python机器学习\03 决策树\我的代码>dot -Tpng iris.dot -o iris.png注意:刚开始需要先直接进入磁盘中,不需要cd...

2019-05-12 11:40:46 8125

转载 win10软件安装出现错误代码2503/2502

win10软件安装出现错误代码2503/2502,亲测可用第一种情况:win7、win8、win10软件安装一半出现错误代码:the installer has encountered an unexpected error installing this package.this may indicate a problem with package.the error code is 25...

2019-05-08 18:54:51 4982 2

转载 信贷审批logistics算法

需求:基于信贷数据进行用户信贷分类,使用Logistic算法构建模型,并比较这两大类算法的效果数据来源:http://archive.ics.uci.edu/ml/datasets/Credit+Approval数据格式:b,30.83,0,u,g,w,v,1.25,t,t,01,f,g,00202,0,+a,58.67,4.46,u,g,q,h,3.04,t,t,06,f,...

2019-04-28 00:01:01 830

原创 机器学习过程中遇到的函数笔记

注:文中笔记有些是复制其它作者的内容整理而来。1.在pycharm中查看内建函数源码鼠标放在内建函数上,Ctrl+B,看源码2.sklearn的train_test_split的random_state我们在使用sklearn的train_test_split函数随机划分数据集生成training set 于test set时,在函数train_test_split中有一个参数为r...

2019-04-15 14:14:36 207

转载 jupyter使用技巧

本文包括如下内容快捷键 魔法命令 扩展 主题设置 制作slides 小工具 其他技巧基于windows10操作系统。快捷键快捷键规律对文本进行操作的快捷键都是Ctrl Shift Alt等,比如Ctrl + C/V/X/Z/A 对Cell(即jupyter中的单元格)进行操作的快捷键都是Esc,比如Esc + C/V//X/Z。还有一个差别在于,用Ctrl必...

2019-03-23 18:18:13 7523 2

转载 修改Jupyter默认文件路径

修改Jupyter默认文件路径,有三个步骤,而网上很多答案只有两个,结果保存的文件还在原来的路径,根本不起作用。回归正题,这里以Anaconda 3 为例,运行系统是Win 7。1、添加jupyter_notebook_config.py配置文件打开Windows运行框,方式有:1)windows+R快捷键;2)“开始”菜单中搜索“运行”;3) “开始”菜单,“附件”中点击“运行”;然...

2019-03-12 18:41:28 15227 3

转载 python打印三角形、菱形、正方形

Python 打印等腰直角三角形Python打印等边三角形Python打印菱形Python打印实心正方形Python打印空心正方形

2019-01-30 13:07:07 1405

转载 pycharm 快捷键

1.Pycharm中快捷键大全撤销与反撤销:Ctrl + z,Ctrl + Shift + z 缩进、不缩进:Tab、Shift + tab 运行:Shift + F10 批量注释:Ctrl + / 快速查看文档:Ctrl + q 当光标在代码中间,如何回车到下一行:Shift + 回车 当鼠标在代码下一行非开头位置,如何跳转到上一行末尾:Ctrl + backspace(退格键)...

2019-01-30 12:02:50 727

原创 Ping不是内部或外部命令,也不是可运行的程序或批处理文件解决办法

ping命令是网管们和网站站长们常用的命令之一,ping.exe的原理是,向指定的IP地址发送一定长度的数据包,按照约定,若指定IP地址存在的话,会返回同样大小的数据包,当然,若在特定的时间内没有返回,就是“超时”,就认为指定的IP地址不存在。由于ping使用的是icmp协议,有些防火墙软件会屏蔽掉icmp协议,所以有时候ping的结果只能做为参考,ping不通并不能就一定说明对方IP不存在。...

2019-01-21 12:56:02 4497

原创 数据类型,astype 转换数据类型

import numpy as npprint ('生成数组时指定数据类型')arr = np.array([1, 2, 3], dtype = np.float64)print (arr.dtype)arr = np.array([1, 2, 3], dtype = np.int32)print (arr.dtype)print ( )print ('使用astype复制数组并...

2018-03-28 15:59:26 8561

原创 numpy.ndarry n维数组类型

import numpy as npprint ('使用普通一维数组生成NumPy一维数组')data = [6, 7.5, 8, 0, 1]arr = np.array(data)print (arr)print ('打印元素类型')print (arr.dtype)print ( ) print ('使用普通二维数组生成NumPy二维数组')data = [[1, 2,...

2018-03-28 15:17:26 735

转载 python中 if __name__ == '__main__' 如何正确理解?

在Python,我们经常会编写[python] view plain copyif __name__ == '__main__'   这么一段代码,这段代码该怎么来理解?这段代码的功能理解如下:一个python的文件有两种使用的方法:作用一,直接作为脚本执行。作用二,import到其他的python脚本中被调用(模块重用)执行。if __name__ == '__main__': 的作用就是控制这...

2018-03-27 17:41:10 195

转载 format函数2

强大的.format记录下平时发现的能简化编程的函数、语法和格式等。巧用.format发现有这个语法简直如获珍宝!!!下面是一些运用举例一、替换A、 对应序号替换 大括号内为索引序号,format内参数一一对应变量要替换的内容&gt;&gt;&gt;'hello{0}_s{1}_s{2}_s{3}'.format('!','A','B','C')'hello!_sA_sB_sC'&gt;&gt...

2018-03-23 18:18:32 556

转载 format函数1

format 格式化函数 Python 字符串Python2.6 开始,新增了一种格式化字符串的函数 str.format(),它增强了字符串格式化的功能。基本语法是通过 {} 和 : 来代替以前的 % 。format 函数可以接受不限个参数,位置可以不按顺序。实例&gt;&gt;&gt;"{} {}".format("hello", "world") # 不设置指定位置,按默认顺序'hel...

2018-03-23 18:18:11 500

转载 time和timeit使用

一、time 模块1. 时间表现形式timestamp:时间戳,时间戳表示的是从1970年1月1日00:00:00开始按秒计算的偏移量struct_time: 时间元组,共有九个元素组format time: 格式化时间,已格式化的结构使时间更具可读性。包括自定义格式和固定格式3. 常用方法# 1、获取当前时间time.time() # 获取当前时间戳&gt;1500252381.10072...

2018-03-23 18:07:55 1908

转载 Python中单引号,双引号,3个单引号及3个双引号的区别

 网址:https://blog.csdn.net/woainishifu/article/details/76105667Python中单引号,双引号,3个单引号及3个双引号的区别2017年07月26日 10:21:237401单引号和双引号在Python中我们都知道单引号和双引号都可以用来表示一个字符串,比如 [python] view plain copys...

2018-03-22 18:58:45 505

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除