- 博客(5)
- 资源 (1)
- 收藏
- 关注
原创 Hadoop与Spark整合
搭建Hadoop集群 搭建Hadoop集群请参考博文《Hadoop集群搭建及wordcount测试》,在此不再赘述。安装Scala 在scala官网下载合适的版本,将scala安装包拷贝到linux安装目录,执行解压缩命令进行安装:sudo tar -zxvf scala-2.11.7.tgz -C /usr/opt/spark解压缩完成后,进入etc目录,修改profile,追加以下内容e
2016-05-24 16:48:47 3646
原创 大数据日知录--数据分片与路由
概念 目前主流的大数据存储与计算系统通常采用横向扩展(Scale Out)的方式支持系统可扩展性,即通过增加机器数目来获得水平扩展能力。对于待存储处理的海量数据,需要通过数据分片(Shard/partition)来将数据进行切分并分配到各个机器中去,数据分片后如何找到某条记录的存储位置就成为必然要解决的问题,这一般被称为数据路由(Data Routing)。数据分片和数据路由的抽象模型如下
2016-05-23 16:38:57 2823 1
原创 Hadoop集群搭建及wordcount测试
1. hadoop三种安装模式单机模式 无需运行任何守护进程(daemon),所有程序都在单个JVM上执行。由于在本机模式下测试和调试MapReduce程序较为方便,因此,这种模式适宜用在开发阶段。伪分布式模式 Hadoop守护进程运行在本地机器上,模拟一个小规模的集群。完全分布式模式 Hadoop运行在一个真实的集群中,本文以hadoop-2.6.3为例讲解此模式配置。2. hado
2016-05-05 23:00:45 5921
转载 Hadoop常见问题汇总-转载
An internal error occurred during: “Map/Reducelocation status updater”.java.lang.NullPointerException,如图所示 解决:尝试向HDFS中上传一个文件,然后再新建目录。
2016-05-05 22:48:13 932
原创 机器学习实战--决策树
决策树概述 决策树利用分层的概念将一个复杂的决策问题分解为多个简单的判断问题,最后逐级得到最大支持度的决策结果。 决策树 优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据 缺点:可能产生过度匹配问题 适用数据类型:数值型和标称型决策树算法原理 决策树概念比较简单,用一个男女相亲的例子来描述决策树原理如下: 示例:使用决策树实现分类器 1
2016-05-03 17:32:27 8127
Twisted-17.9.0-cp35_win_amd64.whl
2018-04-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人