自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 HIVE分桶原理和样例

Hive中有数据分区的方案,也有数据分桶的方案,今天我们就来探讨下数据分桶 以及数据分桶使用的场景。该篇文章主要分为一下几个部分:1.数据分桶的适用场景2.数据分桶的原理3.数据分桶的作用4.如何创建数据分桶表5.如何将数据插入分桶表6.针对于分桶表的数据抽样7.数据分桶的一些缺陷数据分桶的适用场景:分区提供了一个隔离数据和优化查询的便利方式,不过并非所有的数据都可形成合理的分区,尤其是需要确定合适大小的分区划分方式,(不合理的数据分区划分方式可能导致有的分区数据过多,而某些分区没有

2021-04-22 15:27:08 610

原创 HIVE常用内置函数

一、hive函数1、关系函数2、日期函数3、条件函数4、字符串函数5、统计函数二、其它1、in()函数2、lateral view 函数3、row_number() 和rank()4、grouping sets()函数一、hive函数1、关系函数等值比较: =语法:A=B。如果表达式A与表达式B相等,则为TRUE;否则为FALSE不等值比较: <>语法: A <> B。如果表达式A为NULL,或者表达式B为NULL,返回NULL;如果表达式A与表达式B

2021-04-22 15:23:43 1408

转载 **(转)**pyspark的使用和操作(基础整理)02

RDD间的操作(1)如果有2个RDD,可以通过下面这些操作,对它们进行集合运算得到1个新的RDDrdd1.union(rdd2): 所有rdd1和rdd2中的item组合(并集)rdd1.intersection(rdd2): rdd1 和 rdd2的交集rdd1.substract(rdd2): 所有在rdd1中但不在rdd2中的item(差集)rdd1.cartesian(rdd2)...

2019-02-21 15:29:38 243

转载 pyspark的使用和操作(基础整理)

Spark提供了一个Python_Shell,即pyspark,从而可以以交互的方式使用Python编写Spark程序。 有关Spark的基本架构介绍参考http://blog.csdn.net/cymy001/article/details/78483614; 有关Pyspark的环境配置参考http://blog.csdn.net/cymy001/article/details/7843...

2019-02-21 15:28:11 676

原创 html界面在和flask前后台交互js报错$.ajax is not a function

在做flask和html前后台交互时,前台是省市级联select标签,js写ajax异步交互,发送数据data到flask的post路由,发现调试一直报错,无法获取数据库中的城市列表信息,通过alert调试发现报错是在ajax处,经过检查代码反复调试,原来script引入的js文件版本太低,于是去官网下载最新版本js,调试ok;官网地址:http://jquery.com/...

2019-02-21 15:24:07 306

转载 转:浅谈过拟合(over-fitting)-原因、危害、解决方法

一. 误差和性能度量错误率(error rate)分类错误的样本数占样本总数的比例(D是样本集合,f是模型,f(xi)是模型输出,yi是实际类标,Ⅱ()是指示函数,在内部为真和假时分别取值1,0)m个样本内有a个样本分类错误,则错误率为E = a/m精度(accuracy)对应的 1 - a/m就称为精度,即精度 = 1 - 错误率。误差(error)在我之前的博客机器学习解...

2018-12-04 11:46:36 1968

转载 【集成学习】sklearn中xgboost模块的XGBClassifier函数

常规参数boostergbtree 树模型做为基分类器(默认)gbliner 线性模型做为基分类器silentsilent=0时,不输出中间过程(默认)silent=1时,输出中间过程nthreadnthread=-1时,使用全部CPU进行并行运算(默认)nthread=1时,使用1个CPU进行运算。scale_pos_weight正样本的权重,在二分类任务中,当正负样本比例...

2018-12-04 11:46:06 761

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除