自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

AK_HuangYC的博客

人一我十,人十我百

  • 博客(6)
  • 收藏
  • 关注

原创 hive 空值的处理

hive的使用中不可避免的需要对null、‘’(空字符串)进行判断识别。但是hive有别于传统的数据库。下面一一说明:(1)不同数据类型对空值的存储规则int与string类型数据存储,null默认存储为 \N;string类型的数据如果为"",存储则是"";另外往int类型的字段插入数据“”时,结果还是\N。 (2)不同数据类型,空值的查询对于int可以使用is null来判断空;而对于stri...

2018-02-27 11:07:37 1004

原创 Hadoop mac安装 (亲测有效)

当jdk安装完毕以及ssh配置都成功之后我们现在可以来着手进行Hadoop的安装了。  Hadoop下载地址: https://archive.apache.org/dist/hadoop/common/hadoop-2.7.3/  下载如下图片标记的文件即可:    将该文件解压到你喜欢的地方。如果怕找不到解压后的文件的路径,那么就将该文件标记一下颜色,下次输入该

2018-02-06 09:18:34 3781

原创 DAY 42 机器学习-风控-离群点检测(异常检测)

Isolation Forest 算法: https://zhuanlan.zhihu.com/p/27777266Local Outlier Factor 算法: https://zhuanlan.zhihu.com/p/28178476Principal Component  算法: https://zhuanlan.zhihu.com/p/29091645

2018-02-05 17:59:30 1915

原创 DAY 41 python包报错解决方案 and python包安装慢问题

Collecting numpyUsing cached numpy-1.10.2-cp27-none-macosx_10_6_intel.macosx_10_9_intel.macosx_10_9_x86_64.macosx_10_10_intel.macosx_10_10_x86_64.whlInstalling collected packages: numpy Found exis

2018-02-04 15:09:14 489

原创 DAY 39 Spark RDD 详解

参考:http://shiyanjun.cn/archives/744.html RDD是什么?Resilient Distributed Datasets(RDD,) 弹性分布式数据集示例:控制台日志挖掘本部分我们通过一个具体示例来阐述RDD。假定有一个大型网站出错,操作员想要检查Hadoop文件系统(HDFS)中的日志文件(TB级大小)来找出原因。通过使用S

2018-02-02 15:28:23 208

原创 DAY 38 python pip install PIL 报错

看廖雪峰python2.7教程的时候,安装第三方模块的时候报错...Mac操作:首先安装pip  sudo easy_install pip然后安装pil(Python Imaging Library),然后它洋气的改名了sudo pip install Pillow 通过 命令引入   from PIL import Image(Pillo

2018-02-01 10:42:43 525

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除