- 博客(9)
- 资源 (1)
- 收藏
- 关注
原创 特征选择 Python代码
一、特征选择对与机器学习建模。在海量特征时,特征工程选择是必要的。特征工程很大程度上决定了模型的效果和模型的稳定性。特征工程中包函内容很多,包括数据分析,特征组合变换,特征选择和特征降维等等的技术。特征工程和数据的清洗占据了建模过程中绝大部分的时间。其中特征选择是必不可少的阶段。当建模样本数量不足,但特征较多的时候。特征选择是必须的。因为参数的数量规模往往是与特征的多少是正相关的。如果没有足够...
2019-12-12 20:38:57 4081 2
原创 Hive:left join VS left semi join VS in 的联系与区别
Hive中,左关联有left join和left semi join两种方式,两种方式存在很大的差别。简单总结来说:left join就是我们平时所用的left join。而当A表left semi join关联B表时,结果表只能有A表的列,且B表只能在on中设置过滤条件,并且当B表有重复数据时,A表只会关联B对应值一次。某种意义上来说left semi join与in的功能非常相似。当主...
2019-12-19 20:21:00 3324 4
原创 卷积神经网络CNN相关模型python案例(LeNet-5、Inception_v3)
一、卷积神经网络CNN卷积神经网络是通过卷积层(convolutions)和池化层(pooling)将特征从多个的通道(channel)生成Feature Map,再通过全连接网络(full connections)得到最终输出的一种神经网络结构。卷积神经网络的结构通常如下:输入−>(卷积层convolution×N+采样层pooling)×M−>全连接层FC×K\mathrm{...
2019-12-16 17:56:59 3448 1
原创 Hive常用系统函数-聚合函数
关于Hive常用的聚合函数Hive的聚合函数,大多可以group by 组合使用函数参数格式解释countcount(*), count(expr),count(distinct expr)返回查找的总行数,count(*)返回的行数包括null值;count(expr)和count(distinct expr) 不包括null值sumsum(col), su...
2019-12-16 10:55:13 2505 2
原创 Hive常用系统函数-数学函数
关于Hive常用的字符串处理函数:函数参数格式解释roundround(DOUBLE a, INT d)将 a精确到d位小数,d为可选参数,d空缺时精确到整数位(精确方式为四舍五入)broundbround(DOUBLE a, INT d)将 a使用HALF_EVEN方式精确到d位小数,d为可选参数(HALF_EVEN的方式使末尾数字为偶数)。例如:broun...
2019-12-12 16:19:00 317
原创 Hive常用系统函数-字符串函数
关于Hive常用的字符串处理函数:函数参数格式内容asciiascii(string str)返回传入字符串的第一个字符的ASCII编码base64base64(binary bin)将传入的二进制参数转换为base 64 字符串character_lengthcharacter_length(string str)返回字符串长度(字符串需为UTF8...
2019-12-11 11:35:36 1069
原创 幂等矩阵的理解
一.幂等矩阵的定义若对于方阵A存在如下关系:AA=AAA=AAA=A,则称A为一个幂等矩阵二.一些常见的幂等矩阵1.单位矩阵III2.某一行全为1,其余行全为0的矩阵AAA(证明:设AAA的第mmm行全为1,其余行全为0。B=A∗AB=A*AB=A∗A,可知bij=∑k=1naikakjb_{ij}={\textstyle\sum_{k=1}^n}a_{ik}a_{kj}bij=∑k=...
2019-12-09 20:48:51 21550
原创 Hive常用系统函数-条件函数
关于Hive常用的条件处理函数:函数参数格式内容ifif(boolean testCondition, T valueTrue, T valueFalseOrNull)如果testCondition为True则返回valueTrue,否则返回valueFalse,没有指定valueFals则返回nullisnullisnull( a )如果字段a值的值为nul...
2019-12-09 16:11:27 237
原创 Hive常用系统函数-时间函数
关于HIve常用的时间处理函数函数参数格式内容from_unixtimefrom_unixtime(bigint unixtime[, string format])将unix时间戳转换为当前所在时区的字符串时间,格式为"yyyy-MM-dd HH:mm:ss"unix_timestampunix_timestamp()以秒为单位获取当前的Unix时间戳。...
2019-12-09 12:48:33 1105
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人