大数据
文章平均质量分 92
AISeekOnline
* 不要在该努力拼搏的年纪选择安逸 *
展开
-
配置hadoop HIVE元数据保存在mysql中
先确保已经成功安装了HIVE和MYSQL在hive-site.xml中添加如下内容,指定METASTORE的地址以及连接方式刚安装好hive,conf下是没有hive-site.xml文件的,需要复制 hive-default.xml为hive-site.xml。然后再进行修改。 javax.jdo.option.ConnectionURL转载 2016-12-18 10:59:22 · 1464 阅读 · 0 评论 -
Spark入门(Python版)
Hadoop是对大数据集进行分布式计算的标准工具,这也是为什么当你穿过机场时能看到”大数据(Big Data)”广告的原因。它已经成为大数据的操作系统,提供了包括工具和技巧在内的丰富生态系统,允许使用相对便宜的商业硬件集群进行超级计算机级别的计算。2003和2004年,两个来自Google的观点使Hadoop成为可能:一个分布式存储框架(Google文件系统),在Hadoop中被实现为HDFS;一转载 2016-12-18 12:53:21 · 609 阅读 · 0 评论 -
Spark RDD概念学习系列之Spark的算子的分类(十一)
Spark的算子的分类 从大方向来说,Spark 算子大致可以分为以下两类: 1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。 Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会转载 2017-01-08 22:01:15 · 537 阅读 · 0 评论 -
CentOS7 从零开始搭建 Hadoop2.7集群
版权声明:本文为博主原创文章,未经博主允许不得转载。目录(?)[+]序言文件准备权限修改配置系统环境配置Hadoop集群配置无密码登录启动Hadoop默认举例序言下载软件与工具包 pscp.exe : 用于从本地到目标机器的文件传输hadoop-2.7.3.targ.gz: Ha转载 2017-01-09 22:58:53 · 620 阅读 · 0 评论 -
Spark入门实战系列--8.Spark MLlib(上)--机器学习及SparkMLlib简介
Spark入门实战系列--8.Spark MLlib(上)--机器学习及SparkMLlib简介时间 2015-09-09 07:05:00 博客园-原创精华区原文 http://www.cnblogs.com/shishanyuan/p/4747761.html主题 Spark MLlib【注】该系列文章以及使用到安装包/测试数据 可以在《 倾情大奉送--转载 2017-03-23 20:51:59 · 672 阅读 · 0 评论 -
深度学习算法的几个难点
1、局部最优问题。深度学习算法的目标函数,几乎全都是非凸的。而目前寻找最优解的方法,都是基于梯度下降的。稍微有点背景知识的人都知道,梯度下降方法是解决不了非凸问题的。因此,如果找到最优解,将是深度学习领域,非常值得研究的课题。andrew在google的工作,也就是那只猫,其实训练过程是让人很费解的。为了缩短训练时间,项目组采用了分布式训练的方式。采用了1000台计算机,在不同的计转载 2017-03-15 09:33:08 · 1968 阅读 · 0 评论 -
HBase根据Rowkey批量查询数据JAVA API(一次查多条,返回多个记录)
最近在生产中遇到了一个需求,前台给我多个rowkey的List,要在hbase中查询多个记录(返回给前台list)。在网上也查了很多,不过自己都不太满意,filter的功能有可能查询结果不是准确值,而网上给出的get方法也都是返回一条,scan的话都是返回全部数据,还有用rowkey范围查询的,都跟我的这个应用场景不符啊。无奈,自己找了一个方法,给各位有同样需求的朋友们一个参考。首先创建链接属...转载 2018-07-25 09:36:24 · 10223 阅读 · 0 评论