自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

转载 【强烈推荐】十三个鲜为人知的大数据学习网站

【强烈推荐】十三个鲜为人知的大数据学习网站 发布时间: 2017-4-19 11:06:46     文|邓凯   数据分析重要性   越来越多的管理者意识到数据分析对经济发展、企业运营的重要意义。 ...

2017-04-27 19:44:35 5469 0

转载 旅游推荐系统的演进

作者:郑刚,美团点评高级技术专家。2010年毕业于中科院计算所,2011年加入美团,参与美团早期数据平台搭建,先后负责平台、酒旅数据仓库和数据产品建设,目前在酒旅事业群数据研发中心,重点负责酒店旅游场景下的搜索排序推荐、数据挖掘工作,致力于用大数据和机器学习技术解决业务痛点,提升用户体验。  责...

2017-04-27 19:36:18 2067 0

转载 zeppelin源码分析(6)——note的执行过程

zeppelin源码分析(6)——note的执行过程 标签: runnote时序图独立进程remote 2016-06-03 20:00 955人阅读 评论(0) 收藏 举报  分类: zeppelin(9)  版权声明:本文为博主原创文章,未经博主允...

2017-04-26 13:24:49 711 0

转载 Sqoop导入hive分隔符问题

2016-11-29 14:33 606人阅读 评论(0) 收藏 举报  分类: Hadoop(26)  Sqoop从Oracle导入数据到Hive,示例: [plain] view plain copy sqo...

2017-04-25 17:13:34 1337 0

转载 关于spark的mllib学习总结(Java版)

本篇博客主要讲述如何利用Spark的mliib构建机器学习模型并预测新的数据,具体的流程如下图所示:  加载数据 对于数据的加载或保存,mllib提供了MLUtils包,其作用是Helper methods to load,save and pre-process data use...

2017-04-24 20:55:30 782 0

转载 外卖订单量预测异常报警模型实践

一、前言 外卖业务的快速发展对系统稳定性提出了更高的要求,每一次订单量大盘的异常波动,都需要做出及时的应对,以保证系统的整体稳定性。如何做出较为准确的波动预警,显得尤为重要。 从时间上看,外卖订单量时间序列有两个明显的特征(如下图所示): 周期性。每天订单量的变化趋势都大致相...

2017-04-24 20:49:11 7213 1

转载 佳吉快运城市配送智能调度平台的应用_图文73

佳吉快运城市配送智能调度平台的应用_图文73 佳吉快运城市配送智能调度平台的应用;佳吉快运是一家以公路零担运输为主的现代物流企业,;随着移动终端(MovableTerminatio;本案例通过推广基于移动终端的智能调度平台实现对货;1、应用企业简况;上海佳吉快运有限公...

2017-04-23 18:52:03 778 0

转载 HDFS Federation在美团点评的应用与改进

HDFS Federation在美团点评的应用与改进 美团点评离线存储团队 ·2017-04-14 19:49 一、背景 2015年10月,经过一段时间的优化与改进,美团点评HDFS集群稳定性和性能有显著提升,保证了业务数据存储量和计算量爆发式增长下的存储服务质量;然而,随着...

2017-04-18 20:27:51 1862 0

转载 IDEA远程调试Hadoop步骤及出错解决整理

IDEA远程调试Hadoop步骤及出错解决整理 标签: Idea远程调试hadoopProtocol messagenativeio.NativeIOwinutils.exe 2016-09-04 12:09 796人阅读 评论(2) 收藏 举报  分类: ha...

2017-04-18 16:30:02 1486 0

转载 之二十-自定义HiveServer2的用户安全认证

[一起学Hive]之二十-自定义HiveServer2的用户安全认证 关键字:hiveserver2、用户安全 HiveServer2提供了JDBC链接操作Hive的功能,非常实用,但如果在使用HiveServer2时候,不注意安全控制,将非常危险,因为任何人都可以作为超级用户来操作Hiv...

2017-04-18 10:53:12 2040 1

转载 hive改表结构的两个坑

hive改表结构的两个坑 标签: hive 2016-05-24 10:26 958人阅读 评论(2) 收藏 举报  分类: hive(2)  版权声明:本文为博主原创文章,未经博主允许不得转载。 坑一:改变字段类型后更新数据不成功 ...

2017-04-18 09:34:17 531 0

转载 SparkGraphX加权最短路径算法实现

SparkGraphX加权最短路径算法实现 标签: sparkgraphxdijkstra 2016-10-14 13:57 477人阅读 评论(0) 收藏 举报  分类: Spark GraphX 版权声明:本文为博主原创文章,未经博主允许不得转载。...

2017-04-16 19:26:36 2684 0

转载 经纬度坐标和投影坐标的转换

经纬度坐标和投影坐标的转换 标签: gis投影坐标geotools 2015-12-11 09:28 3908人阅读 评论(1) 收藏 举报  分类: GIS(28)  版权声明:本文为博主原创文章,未经博主允许不得转载。 昨天,有朋友要...

2017-04-14 13:28:40 3461 0

转载 Hadoop 历史服务器与日志详解

Hadoop 历史服务器与日志详解 2016-01-01 10:59 1015人阅读 评论(0) 收藏 举报  分类: Hadoop学习专辑(39)  版权声明:本文为博主原创文章,未经博主允许不得转载,同时非常感谢提供本文中所引用资料的研究者,谢谢 ^...

2017-04-13 20:33:13 756 0

转载 Spark:超越Hadoop MapReduce

引言:和 Hadoop 一样,Spark 提供了一个 Map/Reduce API(分布式计算)和分布式存储。二者主要的不同点是,Spark 在集群的内存中保存数据,而 Hadoop 在集群的磁盘中存储数据。  本文选自《SparkGraphX实战》。   大数据对一些数据科学团队来说...

2017-04-13 20:20:16 2277 0

转载 hbase连接java(转载)

hbase连接java(转载) 2013-02-25 18:41 4944人阅读 评论(1) 收藏 举报  分类: Hadoop研究(84)  版权声明:本文为博主原创文章,未经博主允许不得转载。 1、需要的jar包: commons-c...

2017-04-11 10:48:18 689 0

转载 《Spark1.6.1 官方文档》机器学习库(MLlib)指南

《Spark 官方文档》机器学习库(MLlib)指南 spark-1.6.1 机器学习库(MLlib)指南 MLlib是Spark的机器学习(ML)库。旨在简化机器学习的工程实践工作,并方便扩展到更大规模。MLlib由一些通用的学习算法和工具组成,包括分类、回归、聚类、协同过滤、...

2017-04-09 17:17:44 486 0

转载 机器学习中,有哪些特征选择的工程方法?

作者:城东 链接:https://www.zhihu.com/question/28641663/answer/110165221 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 我来写一个入门级的实践吧,为了保持连贯性,引用了全文...

2017-04-09 16:39:09 2036 0

转载 为什么要特征标准化及特征标准化方法

今天我们会来聊聊机器学习所需要的数据,为了让机器学习方面消化, 我们需不需要对数据动些手脚呢. 所以今天就会提到特征数据的标准化, 也可以说正常化, 归一化, 正规化等等. 注: 本文不会涉及数学推导. 大家可以在很多其他地方找到优秀的数学推导文章. 因为本文原作是一段短视频介绍....

2017-04-09 15:46:04 2329 0

转载 浅谈机器学习中的特征缩放(feature scaling)

浅谈机器学习中的特征缩放(feature scaling) 标签: 机器学习数据 2017-04-01 11:52 2300人阅读 评论(0) 收藏 举报  分类: 机器学习(14)  版权声明:转载请注明来源,谢谢 目录(?)[+]...

2017-04-09 15:31:13 1034 0

转载 机器学习方法:回归(一):线性回归Linear regression

机器学习方法:回归(一):线性回归Linear regression 标签: machine-learningregression线性回归 2015-03-19 22:18 7937人阅读 评论(2) 收藏 举报 本文章已收录于:   机器学习知识库  分...

2017-04-09 13:58:18 584 0

转载 【HBase调优】Hbase万亿级存储性能优化总结

【HBase调优】Hbase万亿级存储性能优化总结 2017-04-07 背景:HBase主集群在生产环境已稳定运行有1年半时间,最大的单表region数已达7200多个,每天新增入库量就有百亿条,对HBase的认识经历了懵懂到熟的过程。为了应对业务数据的压力,HBase入库也由最...

2017-04-08 12:06:41 11353 3

转载 技术实操|Apache Spark 内存管理详解(下篇)

技术实操|Apache Spark 内存管理详解(下篇)     2017-04-01 09:40  浏览次数:268 3. 存储内存管理 3.1 RDD 的持久化机制 弹性分布式数据集(RDD)作为 Spark 最根本的数据抽象,是只读的分区记录(Partition)的集...

2017-04-06 20:00:23 436 0

转载 推荐7个超棒的监控工具

推荐7个超棒的监控工具 发布时间: 2017-3-31 10:25:55     Java 开发者最有用的监控工具有哪些呢?   监测是当今生产环境中很重要的一个功能。错误和性能问题任何时间都会出现 —— 不仅仅在业务时间内 —— 所以好的监控工具...

2017-04-06 19:59:03 6837 0

转载 Phoenix综述(史上最全Phoenix中文文档)

Phoenix综述(史上最全Phoenix中文文档) 个人主页:http://www.linbingdong.com 简书地址:http://www.jianshu.com/users/6cb45a00b49c/latest_articles 网上关于Phoenix的资料寥寥...

2017-04-06 17:32:59 6081 0

原创 phoenix namespace 权限问题处理

phoenix namespace 空间问题处理    时间:20170401    创建过程:首先在phoenix 中(admin 用户)  jdbc:phoenix:> CREATE SCHEMA lighthouse;  //说明:SCHEMA 默认对应namespace 是大写的 ...

2017-04-06 16:14:45 2834 0

提示
确定要删除当前文章?
取消 删除