- 博客(11)
- 资源 (2)
- 收藏
- 关注
原创 hive join数据倾斜优化详解
这篇文章写的不错,https://blog.csdn.net/wisgood/article/details/77063606
2021-04-25 17:17:32 201
原创 数据分布不均的解决方法(上采样和下采样)
在机器学习中难免会遇到数据分析分布不均的情况,处理不好会影响模型的训练效果。这篇文章写的不错。https://blog.csdn.net/tonydz0523/article/details/84325823但是这个文章只是对分类问题的y进行处理,但是对于回归问题,由于y值是连续的,所以需要对连续变量进行离散化一下,在进行数据的上采样,以下代码是对数据添加离散化标签k = 6w...
2019-12-10 16:27:56 3406
原创 连续变量离散化的几种方法
连续变量离散化有三种方法1.等宽离散化2.等频离散化3.利用聚类进行离散化import numpy as npimport pandas as pd#参数初始化datafile = './data/discretization_data.xls'#读取数据data = pd.read_excel(datafile)data = data[u'肝气郁结证型系数']....
2019-12-10 13:56:10 8238 1
转载 Vertica 查询优化
Vertica 查询优化 vertica是惠普公司推出的列式分布式数据库,在OLAP领域有其独到的地方,目前社区版免费,但是只能存放1T的数据。我在工作中维护的bi系统后端就是使用的vertica数据库,平时也经常需要对于数据库的查询进行一些优化。所以写下这篇博客记录一下。定位问题 所谓的数据库调优、程序优化之类的工作,实际上是一个解决问题的过程,而解决问题,第一部就是需要定位问题。找到...
2018-08-10 11:22:43 1530
转载 OLTP和OLAP的区别(转)
OLTP和OLAP的区别联机事务处理OLTP(on-line transaction processing) 主要是执行基本日常的事务处理,比如数据库记录的增删查改。比如在银行的一笔交易记录,就是一个典型的事务。 OLTP的特点一般有: 1.实时性要求高。我记得之前上大学的时候,银行异地汇款,要隔天才能到账,而现在是分分钟到账的节奏,说明现在银行的实时处理能力大大增强。 2.数据量不是很大,生产库...
2018-05-26 09:21:42 213
转载 几个分组函数的区别
今天遇到这几个函数,就查了一下这几个函数之间的差别,保存一下记录1.ROLLUP ROLLUP的作用相当于SQL> set autotrace onSQL> select department_id,job_id,count(*) 2 from employees 3 group by department_id,job_id 4 union 5 select depa...
2018-05-16 18:05:15 1994
转载 vertica使用
最近在学vertica ,找了点vertica有关的只是,记录一下· 进入vertica的sql环境:vsql -d dbname -w passwd· 修改列名:alter table csaprp.tb_rp_ct_olcs_work_list_dispose_mon rename statis_date to statis_month;· 增加列:alter table test.DIM_D...
2018-05-15 20:10:55 3950 1
集成学习:随机森林、GBDT、XGBoost.rar
2020-01-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人