- 博客(5)
- 收藏
- 关注
原创 pandas小技巧之求行最大值及其索引
在平时训练完模型后,需要对模型预测的值做进一步的数据操作,例如在对模型得到类别的概率值按行取最大值,并将最大值所在的列单独放一列。数据格式如下:arrayarray([[ 0.47288769, 0.23982215, 0.2261405 , 0.06114962], [ 0.67969596, 0.11435176, 0.17647322, ...
2018-09-20 14:26:34 76623 1
原创 windows下Xgboost算法包的安装
以前在安装xgb算法包时,看了网上很多篇教程都没有成功,但最后还是找到了解决方法,恰好最近在整理笔记就与大家分享一下:安装成功得益于如下网站下载的一个xgboost安装包的whl文件:https://www.lfd.uci.edu/~gohlke/pythonlibs/通过Ctrl+F后输入xgboost回车就可以到达xgboost所在的目录。根据自己的电脑系统选择对应的安装包,我的电...
2018-09-17 13:58:11 2090
原创 hive中提高代码运行效率的参数配置及代码优化
今天整理下平时hive中用以提高代码运行效率的几个参数,和大家分享一下:1、set mapreduce.map.memory.mb=5120; 此参数是设置每个map使用内存的大小,默认1024M,这个参数是控制map数量的关键参数。如果需要处理的文件较多或 较大时,则分开处理效率会较快,如果文件较少或较小时会造成map资源的浪费。2、set mapr...
2018-09-06 19:09:35 2272
原创 hive中两种日期格式的转换
在解析埋点数据时会遇到两种不同的日期格式:yyyymmdd和yyyy-mm-dd,此类型之间的转换主要有两种思路:第一种方法:from_unixtime+unix_timestamp--20180905转成2018-09-05select from_unixtime(unix_timestamp('20180905','yyyymmdd'),'yyyy-mm-dd')from dw....
2018-09-05 13:45:48 73954 3
原创 机器学习笔记之模型的评价指标小结
当我们训练好模型后,我们要对得到的模型作出评价,那我们怎么评价我们的模型呢,主要有如下指标:一、对于回归模型,主要从下面四个指标出发:1、explained_variance_score:解释回归模型的方差得分,其值取值范围是[0,1],越接近于1说明自变量越能解释因变量的方差变化,值越小说明效果越差。2、mean_absolute_error:平均绝对误差(Mean Absolut...
2018-09-02 18:19:57 5212
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人