自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 资源 (1)
  • 收藏
  • 关注

原创 Hadoop与Spark整合

搭建Hadoop集群 搭建Hadoop集群请参考博文《Hadoop集群搭建及wordcount测试》,在此不再赘述。安装Scala 在scala官网下载合适的版本,将scala安装包拷贝到linux安装目录,执行解压缩命令进行安装:sudo tar -zxvf scala-2.11.7.tgz -C /usr/opt/spark解压缩完成后,进入etc目录,修改profile,追加以下内容e

2016-05-24 16:48:47 3646

原创 大数据日知录--数据分片与路由

概念     目前主流的大数据存储与计算系统通常采用横向扩展(Scale Out)的方式支持系统可扩展性,即通过增加机器数目来获得水平扩展能力。对于待存储处理的海量数据,需要通过数据分片(Shard/partition)来将数据进行切分并分配到各个机器中去,数据分片后如何找到某条记录的存储位置就成为必然要解决的问题,这一般被称为数据路由(Data Routing)。数据分片和数据路由的抽象模型如下

2016-05-23 16:38:57 2823 1

原创 Hadoop集群搭建及wordcount测试

1. hadoop三种安装模式单机模式 无需运行任何守护进程(daemon),所有程序都在单个JVM上执行。由于在本机模式下测试和调试MapReduce程序较为方便,因此,这种模式适宜用在开发阶段。伪分布式模式 Hadoop守护进程运行在本地机器上,模拟一个小规模的集群。完全分布式模式 Hadoop运行在一个真实的集群中,本文以hadoop-2.6.3为例讲解此模式配置。2. hado

2016-05-05 23:00:45 5921

转载 Hadoop常见问题汇总-转载

An internal error occurred during: “Map/Reducelocation status updater”.java.lang.NullPointerException,如图所示 解决:尝试向HDFS中上传一个文件,然后再新建目录。

2016-05-05 22:48:13 932

原创 机器学习实战--决策树

决策树概述 决策树利用分层的概念将一个复杂的决策问题分解为多个简单的判断问题,最后逐级得到最大支持度的决策结果。 决策树 优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据 缺点:可能产生过度匹配问题 适用数据类型:数值型和标称型决策树算法原理 决策树概念比较简单,用一个男女相亲的例子来描述决策树原理如下: 示例:使用决策树实现分类器 1

2016-05-03 17:32:27 8127

Twisted-17.9.0-cp35_win_amd64.whl

用于安装scrapy过程中解决error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools"问题

2018-04-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除