- 博客(6)
- 收藏
- 关注
原创 hive 空值的处理
hive的使用中不可避免的需要对null、‘’(空字符串)进行判断识别。但是hive有别于传统的数据库。下面一一说明:(1)不同数据类型对空值的存储规则int与string类型数据存储,null默认存储为 \N;string类型的数据如果为"",存储则是"";另外往int类型的字段插入数据“”时,结果还是\N。 (2)不同数据类型,空值的查询对于int可以使用is null来判断空;而对于stri...
2018-02-27 11:07:37 1004
原创 Hadoop mac安装 (亲测有效)
当jdk安装完毕以及ssh配置都成功之后我们现在可以来着手进行Hadoop的安装了。 Hadoop下载地址: https://archive.apache.org/dist/hadoop/common/hadoop-2.7.3/ 下载如下图片标记的文件即可: 将该文件解压到你喜欢的地方。如果怕找不到解压后的文件的路径,那么就将该文件标记一下颜色,下次输入该
2018-02-06 09:18:34 3781
原创 DAY 42 机器学习-风控-离群点检测(异常检测)
Isolation Forest 算法: https://zhuanlan.zhihu.com/p/27777266Local Outlier Factor 算法: https://zhuanlan.zhihu.com/p/28178476Principal Component 算法: https://zhuanlan.zhihu.com/p/29091645
2018-02-05 17:59:30 1915
原创 DAY 41 python包报错解决方案 and python包安装慢问题
Collecting numpyUsing cached numpy-1.10.2-cp27-none-macosx_10_6_intel.macosx_10_9_intel.macosx_10_9_x86_64.macosx_10_10_intel.macosx_10_10_x86_64.whlInstalling collected packages: numpy Found exis
2018-02-04 15:09:14 489
原创 DAY 39 Spark RDD 详解
参考:http://shiyanjun.cn/archives/744.html RDD是什么?Resilient Distributed Datasets(RDD,) 弹性分布式数据集示例:控制台日志挖掘本部分我们通过一个具体示例来阐述RDD。假定有一个大型网站出错,操作员想要检查Hadoop文件系统(HDFS)中的日志文件(TB级大小)来找出原因。通过使用S
2018-02-02 15:28:23 208
原创 DAY 38 python pip install PIL 报错
看廖雪峰python2.7教程的时候,安装第三方模块的时候报错...Mac操作:首先安装pip sudo easy_install pip然后安装pil(Python Imaging Library),然后它洋气的改名了sudo pip install Pillow 通过 命令引入 from PIL import Image(Pillo
2018-02-01 10:42:43 525
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人