- 博客(26)
- 资源 (4)
- 收藏
- 关注
转载 【强烈推荐】十三个鲜为人知的大数据学习网站
【强烈推荐】十三个鲜为人知的大数据学习网站发布时间: 2017-4-19 11:06:46 文|邓凯 数据分析重要性 越来越多的管理者意识到数据分析对经济发展、企业运营的重要意义。 在古代,得琅琊阁者得天下 现在,得大数据者得天下。 我总结的数据分析五步
2017-04-27 19:44:35
7206
转载 旅游推荐系统的演进
作者:郑刚,美团点评高级技术专家。2010年毕业于中科院计算所,2011年加入美团,参与美团早期数据平台搭建,先后负责平台、酒旅数据仓库和数据产品建设,目前在酒旅事业群数据研发中心,重点负责酒店旅游场景下的搜索排序推荐、数据挖掘工作,致力于用大数据和机器学习技术解决业务痛点,提升用户体验。 责编:钱曙光,关注架构和算法领域,寻求报道或者投稿请发邮件qianshg@csdn.net,另有「CSD
2017-04-27 19:36:18
2387
转载 zeppelin源码分析(6)——note的执行过程
zeppelin源码分析(6)——note的执行过程标签: runnote时序图独立进程remote2016-06-03 20:00 955人阅读 评论(0) 收藏 举报 分类:zeppelin(9) 版权声明:本文为博主原创文章,未经博主允许不得转载。上图是zeppelin的前后台交互模型,zeppelin采用单独的jv
2017-04-26 13:24:49
847
转载 Sqoop导入hive分隔符问题
2016-11-29 14:33 606人阅读 评论(0) 收藏 举报 分类:Hadoop(26) Sqoop从Oracle导入数据到Hive,示例:[plain] view plain copysqoop import --connect jdbc:oracle:thin:@oracle-host:p
2017-04-25 17:13:34
2587
转载 关于spark的mllib学习总结(Java版)
本篇博客主要讲述如何利用Spark的mliib构建机器学习模型并预测新的数据,具体的流程如下图所示: 加载数据对于数据的加载或保存,mllib提供了MLUtils包,其作用是Helper methods to load,save and pre-process data used in MLLib.博客中的数据是采用spark中提供的数据sample_libsvm_data.t
2017-04-24 20:55:30
938
转载 外卖订单量预测异常报警模型实践
一、前言外卖业务的快速发展对系统稳定性提出了更高的要求,每一次订单量大盘的异常波动,都需要做出及时的应对,以保证系统的整体稳定性。如何做出较为准确的波动预警,显得尤为重要。从时间上看,外卖订单量时间序列有两个明显的特征(如下图所示):周期性。每天订单量的变化趋势都大致相同,午高峰和晚高峰订单量集中。实时性。当天的订单量可能会受天气等因素影响,呈现整体的上涨或下降。订
2017-04-24 20:49:11
8385
2
转载 佳吉快运城市配送智能调度平台的应用_图文73
佳吉快运城市配送智能调度平台的应用_图文73佳吉快运城市配送智能调度平台的应用;佳吉快运是一家以公路零担运输为主的现代物流企业,;随着移动终端(MovableTerminatio;本案例通过推广基于移动终端的智能调度平台实现对货;1、应用企业简况;上海佳吉快运有限公司是一家主要从事公路零担货物运;佳吉快运自成立以来,运输业务每年都在以15%至3;在服务社会的同时,佳
2017-04-23 18:52:03
1202
转载 HDFS Federation在美团点评的应用与改进
HDFS Federation在美团点评的应用与改进美团点评离线存储团队 ·2017-04-14 19:49一、背景2015年10月,经过一段时间的优化与改进,美团点评HDFS集群稳定性和性能有显著提升,保证了业务数据存储量和计算量爆发式增长下的存储服务质量;然而,随着集群规模的发展,单组NameNode组成的集群也产生了新的瓶颈:扩展性:根据HDFS Name
2017-04-18 20:27:51
2016
转载 IDEA远程调试Hadoop步骤及出错解决整理
IDEA远程调试Hadoop步骤及出错解决整理标签: Idea远程调试hadoopProtocol messagenativeio.NativeIOwinutils.exe2016-09-04 12:09 796人阅读 评论(2) 收藏 举报 分类:hadoop(9) 版权声明:本文为博主原创文章,未经博主允许不得转载。作
2017-04-18 16:30:02
2222
转载 之二十-自定义HiveServer2的用户安全认证
[一起学Hive]之二十-自定义HiveServer2的用户安全认证关键字:hiveserver2、用户安全HiveServer2提供了JDBC链接操作Hive的功能,非常实用,但如果在使用HiveServer2时候,不注意安全控制,将非常危险,因为任何人都可以作为超级用户来操作Hive及HDFS数据。比如:在配置HiveServer2的时候,hive.server2.authen
2017-04-18 10:53:12
4027
4
转载 hive改表结构的两个坑
hive改表结构的两个坑标签: hive2016-05-24 10:26 958人阅读 评论(2) 收藏 举报 分类:hive(2) 版权声明:本文为博主原创文章,未经博主允许不得转载。坑一:改变字段类型后更新数据不成功 关于Hive插入数据的一个小坑,今天插入一个表中数据,插入时写的是常数,比如0.01 ,表
2017-04-18 09:34:17
710
转载 SparkGraphX加权最短路径算法实现
SparkGraphX加权最短路径算法实现标签: sparkgraphxdijkstra2016-10-14 13:57 477人阅读 评论(0) 收藏 举报 分类:Spark GraphX版权声明:本文为博主原创文章,未经博主允许不得转载。版本:Spark 1.6 该版本自带的最短路径算法shortestPaths没办法
2017-04-16 19:26:36
3419
转载 经纬度坐标和投影坐标的转换
经纬度坐标和投影坐标的转换标签: gis投影坐标geotools2015-12-11 09:28 3908人阅读 评论(1) 收藏 举报 分类:GIS(28) 版权声明:本文为博主原创文章,未经博主允许不得转载。昨天,有朋友要我帮忙看看一个将经纬度坐标转换成墨卡托投影(墨卡托投影有很多变种,我也不知道他说的是哪一种)的程序,他
2017-04-14 13:28:40
5372
转载 Hadoop 历史服务器与日志详解
Hadoop 历史服务器与日志详解2016-01-01 10:59 1015人阅读 评论(0) 收藏 举报 分类:Hadoop学习专辑(39) 版权声明:本文为博主原创文章,未经博主允许不得转载,同时非常感谢提供本文中所引用资料的研究者,谢谢 ^_^目录(?)[+]本文部分资料转自 Hadoop日志存放
2017-04-13 20:33:13
940
转载 Spark:超越Hadoop MapReduce
引言:和 Hadoop 一样,Spark 提供了一个 Map/Reduce API(分布式计算)和分布式存储。二者主要的不同点是,Spark 在集群的内存中保存数据,而 Hadoop 在集群的磁盘中存储数据。 本文选自《SparkGraphX实战》。 大数据对一些数据科学团队来说是 主要的挑战,因为在要求的可扩展性方面单机没有能力和容量来运行大规模数据处 理。此外,即使专为大数据
2017-04-13 20:20:16
2409
转载 hbase连接java(转载)
hbase连接java(转载)2013-02-25 18:41 4944人阅读 评论(1) 收藏 举报 分类:Hadoop研究(84) 版权声明:本文为博主原创文章,未经博主允许不得转载。1、需要的jar包:commons-codec-1.4.jarcommons-logging-1.0.4.jarHadoop-0.2
2017-04-11 10:48:18
1376
转载 《Spark1.6.1 官方文档》机器学习库(MLlib)指南
《Spark 官方文档》机器学习库(MLlib)指南spark-1.6.1机器学习库(MLlib)指南MLlib是Spark的机器学习(ML)库。旨在简化机器学习的工程实践工作,并方便扩展到更大规模。MLlib由一些通用的学习算法和工具组成,包括分类、回归、聚类、协同过滤、降维等,同时还包括底层的优化原语和高层的管道API。MLllib目前分为两个代码包:
2017-04-09 17:17:44
636
转载 机器学习中,有哪些特征选择的工程方法?
作者:城东链接:https://www.zhihu.com/question/28641663/answer/110165221来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。我来写一个入门级的实践吧,为了保持连贯性,引用了全文:作者:城东链接:特征工程到底是什么? - 城东的回答来源:知乎著作权归作者所有。
2017-04-09 16:39:09
2332
转载 为什么要特征标准化及特征标准化方法
今天我们会来聊聊机器学习所需要的数据,为了让机器学习方面消化, 我们需不需要对数据动些手脚呢. 所以今天就会提到特征数据的标准化, 也可以说正常化, 归一化, 正规化等等.注: 本文不会涉及数学推导. 大家可以在很多其他地方找到优秀的数学推导文章.因为本文原作是一段短视频介绍.所以首先放视频链接: Youtube 或者 优酷.也可以在这个网页找到其他很多相关内容: 莫烦
2017-04-09 15:46:04
2975
转载 浅谈机器学习中的特征缩放(feature scaling)
浅谈机器学习中的特征缩放(feature scaling)标签: 机器学习数据2017-04-01 11:52 2300人阅读 评论(0) 收藏 举报 分类:机器学习(14) 版权声明:转载请注明来源,谢谢目录(?)[+]引言在运用一些机器学习算法的时候不可避免地要对数据进行特征缩放(featu
2017-04-09 15:31:13
2851
转载 机器学习方法:回归(一):线性回归Linear regression
机器学习方法:回归(一):线性回归Linear regression标签: machine-learningregression线性回归2015-03-19 22:18 7937人阅读 评论(2) 收藏 举报本文章已收录于: 机器学习知识库 分类:机器学习 Machine Learning(38) 版权声明:本文为博主原
2017-04-09 13:58:18
751
转载 【HBase调优】Hbase万亿级存储性能优化总结
【HBase调优】Hbase万亿级存储性能优化总结2017-04-07背景:HBase主集群在生产环境已稳定运行有1年半时间,最大的单表region数已达7200多个,每天新增入库量就有百亿条,对HBase的认识经历了懵懂到熟的过程。为了应对业务数据的压力,HBase入库也由最初的单机多线程升级为有容灾机制的分布式入库,为及早发现集群中的问题,还开发了一套对HBase集群服务和
2017-04-08 12:06:41
12339
3
转载 技术实操|Apache Spark 内存管理详解(下篇)
技术实操|Apache Spark 内存管理详解(下篇) 2017-04-01 09:40 浏览次数:2683. 存储内存管理3.1 RDD 的持久化机制弹性分布式数据集(RDD)作为 Spark 最根本的数据抽象,是只读的分区记录(Partition)的集合,只能基于在稳定物理存储中的数据集上创建,或者在其他已有的 RDD 上执行转换(Transforma
2017-04-06 20:00:23
542
转载 推荐7个超棒的监控工具
推荐7个超棒的监控工具发布时间: 2017-3-31 10:25:55 Java 开发者最有用的监控工具有哪些呢? 监测是当今生产环境中很重要的一个功能。错误和性能问题任何时间都会出现 —— 不仅仅在业务时间内 —— 所以好的监控工具需要 7 天 24 小时。目前有许多从不同角度解决这个问题的工具,所以弄清楚去采用哪个不是那么简单。
2017-04-06 19:59:03
9376
转载 Phoenix综述(史上最全Phoenix中文文档)
Phoenix综述(史上最全Phoenix中文文档)个人主页:http://www.linbingdong.com简书地址:http://www.jianshu.com/users/6cb45a00b49c/latest_articles网上关于Phoenix的资料寥寥无几,中文资料更是几乎没有。本人详细阅读Phoenix官网,整理成此篇中文文档,供后人参考。如有翻译错
2017-04-06 17:32:59
8890
原创 phoenix namespace 权限问题处理
phoenix namespace 空间问题处理 时间:20170401 创建过程:首先在phoenix 中(admin 用户) jdbc:phoenix:> CREATE SCHEMA lighthouse; //说明:SCHEMA 默认对应namespace 是大写的 // 分配权限,由于p
2017-04-06 16:14:45
3482
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人