- 博客(8)
- 资源 (19)
- 收藏
- 关注
原创 基于hadoop2.7集群的Spark2.0,Sqoop1.4.6,Mahout0.12.2完全分布式安装
写在前边的话 hadoop2.7完全分布式安装请参考:点击阅读,继任该篇博客之后,诞生了下面的这一篇博客 基本环境: CentOS 6.5,Hadoop 2.7,Java 1.7 Hive 2.0.0,Zookeeper 3.4.8, Hbase 1.2.2 预安
2016-07-28 09:37:29 11163 8
原创 基于hadoop集群的Hive1.2.1、Hbase1.2.2、Zookeeper3.4.8完全分布式安装
基于hadoop 2.7 的完全分布式集群部署 hive 2.0.0, Zookeeper 3.4.8 和 Hbase 1.2.2
2016-07-27 14:41:19 8975
原创 VM+CentOS+hadoop2.7搭建hadoop完全分布式集群
写在前边的话: 最近找了一个云计算开发实习生的工作,本以为来了会直接做一些敲代码,处理数据的活,没想到师父给了我一个课题“基于质量数据的大数据分析”,NameNode问题来了首先要做的就是搭建这样一个平台,毫无疑问,底层采用hadoop集群,在此之上,进行一些其他组件的安装和二次开发,整体架构如下: 一:安装VM 12.x 下载地址:http://
2016-07-25 15:57:04 29210 9
转载 Centos6.5使用yum安装mysql——快速上手必备
第1步、yum安装mysql[root@stonex ~]# yum -y install mysql-server安装结果:Installed: mysql-server.x86_64 0:5.1.73-3.el6_5
2016-07-21 17:08:01 2496
原创 Python调用微博API获取微博内容
一:获取app-key 和 app-secret 使用自己的微博账号登录微博开放平台(http://open.weibo.com/),在微博开放中心下“创建应用”创建一个应用,应用信息那些随便填,填写完毕后,不需要提交审核,需要的只是那个app-key和app-secret二:设置授权回调页 在“微博开放平台”的“管理中心”找到刚才创建的应用,点开这个应用,点开
2016-07-06 16:43:35 18278 4
原创 Spark的运行架构分析(二)之运行模式详解
在上一篇博客 spark的运行架构分析(一)中我们有谈到Spark的运行模式是多种多样的,那么在这篇博客中我们来具体谈谈Spark的运行模式
2016-07-05 19:34:29 11432 2
原创 Spark的运行架构分析(一)之架构概述
1:Spark的运行模式2:Spark中的一些名词解释3:spark的运行基本流程一:Spark的运行模式 Spark的运行模式多种多样,灵活多变,部署在单机上时,既可以用本地模式运行,也可以用伪分布模式运行,而当以分布式集群的方式部署时,也有众多的运行模式可供选择,这取决于集群的实际情况,底层的资源调度即可以依赖外部资源调度框架,也可以使用Spark内建的S
2016-07-05 19:33:33 13995 3
原创 Spark 的键值对(pair RDD)操作,Scala实现
一:什么是Pair RDD? Spark为包含键值对对类型的RDD提供了一些专有操作,这些操作就被称为Pair RDD,Pair RDD是很多程序的构成要素,因为它们提供了并行操作对各个键或跨节点重新进行数据分组的操作接口。二:Pair RDD的操作实例1:创建Pair RDDPai RDDr的转化操作:2:针对两个pair RDD 的转化操作
2016-07-04 15:52:12 16290 2
word2vec.zip
2019-11-13
NLP汉语自然语言处理原理与实战
2018-06-15
gephi-0.9.1-windows.exe
2017-02-14
mysql-connector-java-5.0.4-bin.jar
2017-02-14
commons-el-1.0.jar,jasper-compiler.jar,jasper-runtime.jar
2016-07-28
从疝气病症预测病马的死亡率的测试数据集
2016-04-25
十大算法之线性查找算法
2015-07-29
securboot未完全配置消除补丁
2014-08-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人