- 博客(30)
- 收藏
- 关注
原创 hive concat ,concat_ws ,collect_set() , trim,cast
1. concat(string s1, string s2, string s3)这个函数能够把字符串类型的数据连接起来,连接的某个元素可以是列值。如 concat( aa, ‘:’, bb) 就相当于把aa列和bb列用冒号连接起来了,aa:bb。2. cast用法:cast(value as type)功能:将某个列的值显示的转化为某个类型例子:cast(age as string ) 将int类型的数据转化为了String类型3. concat_ws(seperator, string
2021-06-10 10:33:53
625
原创 EXCEL
1,如何判断某一单元格值是否包含在某一列中2,设置列的字段格式(文本)一直点到3,vlookup(查找值,范围列,查询结果在范围列的第几列,0(精确查找))
2021-06-09 15:05:59
168
原创 hive sql
一:时间函数date_formatdate_format(register_date,‘YYYY-MM’) = ‘2021-04’二:collect_set(列转行)https://www.cnblogs.com/cc11001100/p/9043946.html三:!array_containsHive中的array_contains函数与SQL中的 in关键字 操作类似,用于判定 包含(array_contains)或不包含(!array_contains)关系。与 in不同的是array_
2021-06-04 14:10:10
284
原创 powerbi
powerbi1,编辑交互:同一页面,点一个动全身:若不想全动,‘格式’——‘编辑交互’(设置成无)若想都不交互,同一页面,每个表都要设置。2,钻取:向上钻取 向下钻取(类似于总括下面的细分);双击其中一个格 选中3,自定义图标(图表格式在 http://powerbi.com/visuals)4,powerbi问与答...
2021-03-30 15:13:46
273
原创 决策树
决策树 (DT Decision Trees) 是一种用来分类和回归的无参监督学习方法,其目的是创建一种模型从数据特征中学习简单的决策规则来预测一个目标变量的值。
2020-07-07 10:27:51
104
原创 jiqi
https://sklearn.apachecn.org/docs/master/2.html1,最小二乘法拟合一个带有系数 w = (w_1, …, w_p) 的线性模型,使得数据集实际观测数据和预测数据(估计值)之间的残差平方和最小。其数学表达式为:{min,} {|| X w - y||_2}^22,支持向量机(SVM):可以用于监督学习的分类、回归、异常检测优势:在高维空间中非常有效;即使在数据维度比样本数量大的情况下仍然有效.在决策函数(称为支持向量)中使用训练集的子集,因此它也
2020-07-01 10:51:24
1850
原创 数仓
1,数仓数据仓库(DataWarehouse),一般缩写成DW、DWH。数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策...
2020-06-24 09:33:42
200
原创 推荐系统
1,推荐系统要素ui和ue(前端界面)数据(lambda架构)业务知识算法lambda架构是一个实时大数据处理框架。Lambda架构将离线计算和实时计算整合,设计出一个满足实时大数据系统关键特性的架构。包括:高容错、低延时、可扩展2,推荐模型构建流程数据—特征—选择算法训练模型—预测输出3,最经典的推荐算法:协同过滤推荐算法算法基本思想:物以类聚,人以群分实现协同过滤推荐步骤:找出最相似的人或物品:TOP-N相似的人或物品通过计算两两的相似度来进行排序,即可找出TOP-N相
2020-06-17 13:24:22
310
原创 机器学习(科学计算库) 2
1, jupyter notebook两种模式通用快捷键:shift +enter ,执行本单元代码,并跳转到下一单元crtl + enter ,执行本单元代码,留在本单元2,matplotlib可视化模块:matplotlib.pyplotimport matplotlib.pyplot as plt折线图:plt.plot(x,y)散点图:plt.scatter(x,y)柱形图:plt.bar(x,width,align=‘center’ , **kwargs)饼
2020-06-12 11:35:24
134
原创 机器学习 (科学计算库)1
一:机器学习机器学习是从数据中自动分析获得模型,并利用模型对未知数据进行预测。机器学习工作流程总结:1,获取数据2,数据基本处理3,特征工程4,机器学习(模型训练)5,模型评估数据简介:***等会...
2020-06-09 10:28:14
242
原创 Redis
一:redis 是完全开源的,是一个高性能的 key-value 数据库特点:1, Redis 支持数据的持久化 可以将内存中的数据保存在磁盘中,重启的时候可以再次加载进行使用2,Redis 不仅支持 key-value 类型的数据,还提供list、set、zset、hash等数据结构的存储3,Redis 支持数据的备份,即 master-slave模式的数据备份优势:1,性能极高2,丰富的数据类型 3,原子 4,丰富的特性...
2020-06-04 10:10:37
93
原创 python 数据分析
一:python 重要的库1,numpy :python科学计算的基础包。2,pandas : 提供了快速便捷处理结构化数据的大量数据结构和函数。pandas对象DataFrame ,它是一个面向列的二维表结构3,matplotlib :用于绘制图标和其他二维数据可视化的python库。代表 :Jupyte4,scikit-learn :python的通用机器学习工具包。注重预测分类:svm、knn、随机森林、逻辑回归等回归:lasso、岭回归等聚类:降维:pca、特征选择、矩阵分解等
2020-06-04 09:10:31
181
原创 Hadoop
1,Hadoop 是一个能够对大量数据进行分布式处理的软件框架,并行处理优点:高可靠性:Hadoop按位存储和处理数据的能力值得人们信赖。高扩展性:Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。高效性:Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。高容错性:Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。Hadoop带有用 Java 语言编写的框架,因此运行在 Linux 生
2020-05-25 15:33:18
132
原创 python 基础
1,2,3, 用‘’表示字符串4,注释5,元祖6,字典7,判断8,循环****中断循环9,10,python 数学计算库11,python 列表删除数据12,元组注:https://www.runoob.com/python/python-lists.html 菜鸟教程...
2020-05-20 16:03:20
87
原创 数据库跨库不跨库 从一张表到另一个表
1,如果需要把数据库a 中的表t1 转移到另一个数据库b 中的新表 t2 ,(无论跨库不垮库),用kettle 即可;忘表中插数据 ,若是已建好表,则 insert into (列名) select 列 from (sql语句,即需要插入的数据)a例如:2,用kettle 之前,要安装jdk (必须配套),安装可参考百度...
2020-04-26 09:38:31
247
原创 sql 时间递增
1,递增到今天,类型为dateselectdate_trunc(‘day’,generate_series(to_date(‘2020-04-01’, ‘yyyy-mm-dd’),to_date((now() + interval ‘-1 day’)::VARCHAR, ‘yyyy-mm-dd’),‘1 day’ ::interval)) c_date...
2020-04-26 09:22:43
1153
原创 postgresql——时间
1,时间戳保留到秒(类型依然为timestamp)date_trunc(‘second’, 时间) eg:date_trunc(‘second’, a.paid_date) 结果:2010-01-01 15:24:56date_trunc(‘day’, 时间)date_trunc(‘minute’, 时间)2,to_char(转换后类型为varchar)to_char(时间,‘yyy...
2020-03-31 11:32:16
349
原创 postgresql 多行转一行
https://blog.csdn.net/luojinbai/article/details/44458549
2019-12-03 15:01:59
154
转载 PostgreSQL一些常用命令
https://blog.csdn.net/u010856284/article/details/70142810
2019-10-23 09:12:43
102
原创 postgresql——内置函数
一:算术函数(数值计算)1, + - * /2, abs-绝对值 abs(数值)3, mod-求余 mod(被除数,除数)4,round-四舍五入 round(对象数值,保留小数的位数)二:字符串函数(字符串操作)1,||-拼接select str1,str2 ,str1|| str2 as str_concat from 表名2,length-...
2019-10-14 14:29:36
1045
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人