自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 收藏
  • 关注

原创 hive concat ,concat_ws ,collect_set() , trim,cast

1. concat(string s1, string s2, string s3)这个函数能够把字符串类型的数据连接起来,连接的某个元素可以是列值。如 concat( aa, ‘:’, bb) 就相当于把aa列和bb列用冒号连接起来了,aa:bb。2. cast用法:cast(value as type)功能:将某个列的值显示的转化为某个类型例子:cast(age as string ) 将int类型的数据转化为了String类型3. concat_ws(seperator, string

2021-06-10 10:33:53 625

原创 EXCEL

1,如何判断某一单元格值是否包含在某一列中2,设置列的字段格式(文本)一直点到3,vlookup(查找值,范围列,查询结果在范围列的第几列,0(精确查找))

2021-06-09 15:05:59 168

原创 hive sql

一:时间函数date_formatdate_format(register_date,‘YYYY-MM’) = ‘2021-04’二:collect_set(列转行)https://www.cnblogs.com/cc11001100/p/9043946.html三:!array_containsHive中的array_contains函数与SQL中的 in关键字 操作类似,用于判定 包含(array_contains)或不包含(!array_contains)关系。与 in不同的是array_

2021-06-04 14:10:10 284

原创 powerbi

powerbi1,编辑交互:同一页面,点一个动全身:若不想全动,‘格式’——‘编辑交互’(设置成无)若想都不交互,同一页面,每个表都要设置。2,钻取:向上钻取 向下钻取(类似于总括下面的细分);双击其中一个格 选中3,自定义图标(图表格式在 http://powerbi.com/visuals)4,powerbi问与答...

2021-03-30 15:13:46 273

原创 决策树

决策树 (DT Decision Trees) 是一种用来分类和回归的无参监督学习方法,其目的是创建一种模型从数据特征中学习简单的决策规则来预测一个目标变量的值。

2020-07-07 10:27:51 104

原创 jiqi

https://sklearn.apachecn.org/docs/master/2.html1,最小二乘法拟合一个带有系数 w = (w_1, …, w_p) 的线性模型,使得数据集实际观测数据和预测数据(估计值)之间的残差平方和最小。其数学表达式为:{min,} {|| X w - y||_2}^22,支持向量机(SVM):可以用于监督学习的分类、回归、异常检测优势:在高维空间中非常有效;即使在数据维度比样本数量大的情况下仍然有效.在决策函数(称为支持向量)中使用训练集的子集,因此它也

2020-07-01 10:51:24 1850

原创 数仓

1,数仓数据仓库(DataWarehouse),一般缩写成DW、DWH。数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策...

2020-06-24 09:33:42 200

原创 推荐系统

1,推荐系统要素ui和ue(前端界面)数据(lambda架构)业务知识算法lambda架构是一个实时大数据处理框架。Lambda架构将离线计算和实时计算整合,设计出一个满足实时大数据系统关键特性的架构。包括:高容错、低延时、可扩展2,推荐模型构建流程数据—特征—选择算法训练模型—预测输出3,最经典的推荐算法:协同过滤推荐算法算法基本思想:物以类聚,人以群分实现协同过滤推荐步骤:找出最相似的人或物品:TOP-N相似的人或物品通过计算两两的相似度来进行排序,即可找出TOP-N相

2020-06-17 13:24:22 310

原创 机器学习(科学计算库) 2

1, jupyter notebook两种模式通用快捷键:shift +enter ,执行本单元代码,并跳转到下一单元crtl + enter ,执行本单元代码,留在本单元2,matplotlib可视化模块:matplotlib.pyplotimport matplotlib.pyplot as plt折线图:plt.plot(x,y)散点图:plt.scatter(x,y)柱形图:plt.bar(x,width,align=‘center’ , **kwargs)饼

2020-06-12 11:35:24 134

原创 机器学习 (科学计算库)1

一:机器学习机器学习是从数据中自动分析获得模型,并利用模型对未知数据进行预测。机器学习工作流程总结:1,获取数据2,数据基本处理3,特征工程4,机器学习(模型训练)5,模型评估数据简介:***等会...

2020-06-09 10:28:14 242

原创 Redis

一:redis 是完全开源的,是一个高性能的 key-value 数据库特点:1, Redis 支持数据的持久化 可以将内存中的数据保存在磁盘中,重启的时候可以再次加载进行使用2,Redis 不仅支持 key-value 类型的数据,还提供list、set、zset、hash等数据结构的存储3,Redis 支持数据的备份,即 master-slave模式的数据备份优势:1,性能极高2,丰富的数据类型 3,原子 4,丰富的特性...

2020-06-04 10:10:37 93

原创 python 数据分析

一:python 重要的库1,numpy :python科学计算的基础包。2,pandas : 提供了快速便捷处理结构化数据的大量数据结构和函数。pandas对象DataFrame ,它是一个面向列的二维表结构3,matplotlib :用于绘制图标和其他二维数据可视化的python库。代表 :Jupyte4,scikit-learn :python的通用机器学习工具包。注重预测分类:svm、knn、随机森林、逻辑回归等回归:lasso、岭回归等聚类:降维:pca、特征选择、矩阵分解等

2020-06-04 09:10:31 181

原创 Hadoop

1,Hadoop 是一个能够对大量数据进行分布式处理的软件框架,并行处理优点:高可靠性:Hadoop按位存储和处理数据的能力值得人们信赖。高扩展性:Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。高效性:Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。高容错性:Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。Hadoop带有用 Java 语言编写的框架,因此运行在 Linux 生

2020-05-25 15:33:18 132

原创 python 基础

1,2,3, 用‘’表示字符串4,注释5,元祖6,字典7,判断8,循环****中断循环9,10,python 数学计算库11,python 列表删除数据12,元组注:https://www.runoob.com/python/python-lists.html 菜鸟教程...

2020-05-20 16:03:20 87

原创 postgresql 高级sql

一:分组1, rollup

2020-05-12 17:15:06 165

原创 shell 定时任务

2,3,3,先定时在执行crontab -lcrontab -e

2020-04-29 10:21:45 617

原创 sql json解析

2020-04-26 10:58:17 416

原创 sql 时间类型

1,2,

2020-04-26 09:59:44 140

原创 数据库 某个字段多个值合并

1,array_to_string(array(), ‘,’)2,3,

2020-04-26 09:56:21 638

原创 数据库跨库不跨库 从一张表到另一个表

1,如果需要把数据库a 中的表t1 转移到另一个数据库b 中的新表 t2 ,(无论跨库不垮库),用kettle 即可;忘表中插数据 ,若是已建好表,则 insert into (列名) select 列 from (sql语句,即需要插入的数据)a例如:2,用kettle 之前,要安装jdk (必须配套),安装可参考百度...

2020-04-26 09:38:31 247

原创 sql 时间递增

1,递增到今天,类型为dateselectdate_trunc(‘day’,generate_series(to_date(‘2020-04-01’, ‘yyyy-mm-dd’),to_date((now() + interval ‘-1 day’)::VARCHAR, ‘yyyy-mm-dd’),‘1 day’ ::interval)) c_date...

2020-04-26 09:22:43 1153

原创 postgresql——时间

1,时间戳保留到秒(类型依然为timestamp)date_trunc(‘second’, 时间) eg:date_trunc(‘second’, a.paid_date) 结果:2010-01-01 15:24:56date_trunc(‘day’, 时间)date_trunc(‘minute’, 时间)2,to_char(转换后类型为varchar)to_char(时间,‘yyy...

2020-03-31 11:32:16 349

原创 postgresql 多行转一行

https://blog.csdn.net/luojinbai/article/details/44458549

2019-12-03 15:01:59 154

转载 PostgreSQL一些常用命令

https://blog.csdn.net/u010856284/article/details/70142810

2019-10-23 09:12:43 102

原创 postgresql 代码截屏

2,随机选一个值3,order by 对时间进行排序

2019-10-21 09:12:37 228

原创 postgresql 字段值得连接

2019-10-17 09:42:35 165

原创 postgresql 约束

2019-10-15 10:15:15 166

原创 postgresql——内置函数

一:算术函数(数值计算)1, + - * /2, abs-绝对值 abs(数值)3, mod-求余 mod(被除数,除数)4,round-四舍五入 round(对象数值,保留小数的位数)二:字符串函数(字符串操作)1,||-拼接select str1,str2 ,str1|| str2 as str_concat from 表名2,length-...

2019-10-14 14:29:36 1045

原创 正则

一:正则简述二:正则的规则三:正则表达式的优先级四:正则表达式测试直接百度搜即可

2019-10-08 10:58:33 70

转载 postgresql

postgresql1, postgreSQL是一个免费的对象-关系数据库服务器 (ORDBMS)2,3,

2019-10-08 09:37:26 136

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除