自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

数据小白的进阶之路

记录工作和学习中遇到较好的知识,分享给大家~

  • 博客(5)
  • 收藏
  • 关注

原创 pandas小技巧之求行最大值及其索引

        在平时训练完模型后,需要对模型预测的值做进一步的数据操作,例如在对模型得到类别的概率值按行取最大值,并将最大值所在的列单独放一列。数据格式如下:arrayarray([[ 0.47288769,  0.23982215,  0.2261405 ,  0.06114962],       [ 0.67969596,  0.11435176,  0.17647322,  ...

2018-09-20 14:26:34 76437 1

原创 windows下Xgboost算法包的安装

以前在安装xgb算法包时,看了网上很多篇教程都没有成功,但最后还是找到了解决方法,恰好最近在整理笔记就与大家分享一下:安装成功得益于如下网站下载的一个xgboost安装包的whl文件:https://www.lfd.uci.edu/~gohlke/pythonlibs/通过Ctrl+F后输入xgboost回车就可以到达xgboost所在的目录。根据自己的电脑系统选择对应的安装包,我的电...

2018-09-17 13:58:11 2009

原创 hive中提高代码运行效率的参数配置及代码优化

今天整理下平时hive中用以提高代码运行效率的几个参数,和大家分享一下:1、set mapreduce.map.memory.mb=5120;      此参数是设置每个map使用内存的大小,默认1024M,这个参数是控制map数量的关键参数。如果需要处理的文件较多或             较大时,则分开处理效率会较快,如果文件较少或较小时会造成map资源的浪费。2、set mapr...

2018-09-06 19:09:35 2171

原创 hive中两种日期格式的转换

在解析埋点数据时会遇到两种不同的日期格式:yyyymmdd和yyyy-mm-dd,此类型之间的转换主要有两种思路:第一种方法:from_unixtime+unix_timestamp--20180905转成2018-09-05select from_unixtime(unix_timestamp('20180905','yyyymmdd'),'yyyy-mm-dd')from dw....

2018-09-05 13:45:48 73729 3

原创 机器学习笔记之模型的评价指标小结

当我们训练好模型后,我们要对得到的模型作出评价,那我们怎么评价我们的模型呢,主要有如下指标:一、对于回归模型,主要从下面四个指标出发:1、explained_variance_score:解释回归模型的方差得分,其值取值范围是[0,1],越接近于1说明自变量越能解释因变量的方差变化,值越小说明效果越差。2、mean_absolute_error:平均绝对误差(Mean Absolut...

2018-09-02 18:19:57 5055

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除