Hive的内置服务和hiveserver/hiveserver2的比较

两者都允许远程客户端使用多种编程语言,通过HiveServer或者HiveServer2,客户端可以在不启动CLI的情况下对Hive中的数据进行操作,连这个和都允许远程客户端使用多种编程语言如java,python等向hive提交请求,取回结果(从hive0.15起就不再支持hiveserver了),但是在这里我们还是要说一下hiveserver HiveServer或者HiveServer2都是基于Thrift的,但HiveSever有时被称为Thrift server,而HiveServe...
阅读(8829) 评论(8)

Spark集群启动python shell错误: Could not resolve hostname localhost: Temporary failure

Spark启动bin/pyspark报错:socket.gaierror: [Errno -3] Temporary failure in name resolution的解决办法...
阅读(2055) 评论(0)

基于hadoop2.7集群的Spark2.0,Sqoop1.4.6,Mahout0.12.2完全分布式安装

写在前边的话        hadoop2.7完全分布式安装请参考:点击阅读,继任该篇博客之后,诞生了下面的这一篇博客        基本环境:               CentOS 6.5,Hadoop 2.7,Java 1.7               Hive 2.0.0,Zookeeper 3.4.8, Hbase 1.2.2        预安...
阅读(5742) 评论(7)

基于hadoop集群的Hive1.2.1、Hbase1.2.2、Zookeeper3.4.8完全分布式安装

基于hadoop 2.7 的完全分布式集群部署 hive 2.0.0, Zookeeper 3.4.8 和 Hbase 1.2.2...
阅读(3518) 评论(0)

VM+CentOS+hadoop2.7搭建hadoop完全分布式集群

写在前边的话:        最近找了一个云计算开发实习生的工作,本以为来了会直接做一些敲代码,处理数据的活,没想到师父给了我一个课题“基于质量数据的大数据分析”,NameNode问题来了首先要做的就是搭建这样一个平台,毫无疑问,底层采用hadoop集群,在此之上,进行一些其他组件的安装和二次开发,整体架构如下:          一:安装VM 12.x      下载地址:http://...
阅读(6400) 评论(5)

Centos6.5使用yum安装mysql——快速上手必备

第1步、yum安装mysql [root@stonex ~]#  yum -y install mysql-server 安装结果: Installed:     mysql-server.x86_64 0:5.1.73-3.el6_5                                                                              ...
阅读(978) 评论(0)

Python调用微博API获取微博内容

一:获取app-key 和 app-secret     使用自己的微博账号登录微博开放平台(http://open.weibo.com/),在微博开放中心下“创建应用”创建一个应用,应用信息那些随便填,填写完毕后,不需要提交审核,需要的只是那个app-key和app-secret 二:设置授权回调页     在“微博开放平台”的“管理中心”找到刚才创建的应用,点开这个应用,点开...
阅读(1786) 评论(0)

Spark的运行架构分析(二)之运行模式详解

在上一篇博客  spark的运行架构分析(一)中我们有谈到Spark的运行模式是多种多样的,那么在这篇博客中我们来具体谈谈Spark的运行模式...
阅读(3319) 评论(0)

Spark的运行架构分析(一)之架构概述

1:Spark的运行模式 2:Spark中的一些名词解释 3:spark的运行基本流程 一:Spark的运行模式         Spark的运行模式多种多样,灵活多变,部署在单机上时,既可以用本地模式运行,也可以用伪分布模式运行,而当以分布式集群的方式部署时,也有众多的运行模式可供选择,这取决于集群的实际情况,底层的资源调度即可以依赖外部资源调度框架,也可以使用Spark内建的S...
阅读(5791) 评论(0)

Spark 的键值对(pair RDD)操作,Scala实现

一:什么是Pair RDD?          Spark为包含键值对对类型的RDD提供了一些专有操作,这些操作就被称为Pair RDD,Pair RDD是很多程序的构成要素,因为它们提供了并行操作对各个键或跨节点重新进行数据分组的操作接口。 二:Pair RDD的操作实例 1:创建Pair RDD Pai RDDr的转化操作: 2:针对两个pair RDD 的转化操作...
阅读(4628) 评论(0)

利用采样器实现mapreduce任务输出全排序

采样器是hadoop内自带的一个可以对目标文件部分数据进行提取的工具类,以方便我们对这些采样的数据做一些参考或者处理。hadoop提供了多种采样器供我们使用,以满足不同的需求。另外,采样器不同于普通mapreduce操作。它是直接在客户端机器上运行的。 常见采样器 IntervalSampler 以一定的间隔定期从划分中选择key,对有排序的数据来说更好 RandomSame...
阅读(755) 评论(0)

hadoop中NameNode、DataNode、Secondary、NameNode、ResourceManager、NodeManager 介绍

1:NameNode 2:SecondNameNode 3:DataNode 4:ResourceManage 1、NameNode介绍        Namenode 管理者文件系统的Namespace。它维护着文件系统树(filesystem tree)以及文件树中所有的文件和文件夹的元数据(metadata)。管理这些信息的文件有两个,分别是Namespace 镜像...
阅读(6341) 评论(0)

Hive的数据类型解析和表的操作实例

一:Hive中的数据类型 Hive支持两种数据类型,一类叫原子数据类型,一类叫复杂数据类型。   原子数据类型包括数值型、布尔型和字符串类型,具体如下表所示: 基本数据类型 类型 描述 示例 TINYINT 1个字节(8位)有符号整数 1 SMALLINT 2字节(16位)...
阅读(2839) 评论(0)

Spark RDD编程(Python和Scala版本)

Spark中的RDD就是一个不可变的分布式对象集合,是一种具有兼容性的基于内存的集群计算抽象方法,Spark则是这个方法的抽象。        Spark的RDD操作分 和为转化操作(transformation)和行动操作(action),两者的区别在于:        转化操作返回一个新的RDD对象        行动操作则会对RDD产生一个计算结果,并把结果返回到驱动器...
阅读(3972) 评论(2)

Spark 的 Shell操作,核心概念,构建独立应用

1:Spark中的Python和Scala的shell 2:Spark核心概念简介 3:独立应用 4:Spark数据集 一:Spark中的Python 和Scala  的shell        1:shell设置显示日志        进入Spark的安装目录,启动spark的集群,输入bin/pyspark,但此时会伴有大量的日志信息,在这里想要缩减启动信息...
阅读(1584) 评论(0)

《推荐系统》基于图的推荐算法

1:概述 2:原理简介 3:代码实现 一:概述         基于图的模型(graph-based model)是推荐系统中的重要内容。其实,很多研究人员把基于邻域的模型也称为基于图的模型,因为可以把基于邻域的模型看做基于图的模型的简单形式         在研究基于图的模型之前,首先需要将用户的行为数据,表示成图的形式,下面我们讨论的用户行为数据是用二元数组组成的,其中每个二元组...
阅读(5725) 评论(1)

《推荐系统》基于标签的用户推荐系统

1:联系用户兴趣和物品的方式 2:标签系统的典型代表 3:用户如何打标签 4:基于标签的推荐系统 5:算法的改进 源代码查看地址:github查看 一:联系用户兴趣和物品的方式     推荐系统的目的是联系用户的兴趣和物品,这种联系方式需要依赖不同的媒介。目前流行的推荐系统基本上是通过三种方式联系用户兴趣和物品。                                           1:利用用户喜欢过的物品,给用户推荐与他喜欢过的物品...
阅读(11574) 评论(5)

Spark的伪分布安装和wordcount测试

一:环境说明              Ubuntu:15.10(不稳定版,建议安装在稳定版,Ubuntu下XX..4是稳定的)              Hadoop:2.6              Scala:2.11.8              Java:1.7.0              Spark:1.6.1 2:hadoop伪分布安装...
阅读(1994) 评论(0)

《Hadoop进阶》利用Hadoop构建豆瓣图书推荐系统

转载请注明出处: 转载自  Thinkgamer的CSDN博客:blog.csdn.net/gamer_gyt 代码下载地址:点击查看 1:推荐系统概述 2:需求分析:推荐系统的指标设计 3:算法模型:基于物品的协同过滤并行算法设计 4:架构设计:推荐系统架构 5:程序实现:MR2V程序实现 6:推荐系统评估 一、推荐...
阅读(10109) 评论(7)

《推荐系统》基于用户和Item的协同过滤算法的分析与实现(Python)

1:协同过滤算法简介 2:协同过滤算法的核心 3:协同过滤算法的应用方式 4:基于用户的协同过滤算法实现 5:基于物品的协同过滤算法实现 一:协同过滤算法简介     关于协同过滤的一个最经典的例子就是看电影,有时候不知道哪一部电影是我们喜欢的或者评分比较高的,那么通常的做法就是问问周围的朋友,看看最近有什么好的电影推荐。在问的时...
阅读(15481) 评论(18)
234条 共12页首页 上一页 1 2 3 4 5 ... 下一页 尾页
    Thinkgamer微博
    个人微信,一起交流!

     扫一扫,关注我




    个人资料
    • 访问:636158次
    • 积分:8376
    • 等级:
    • 排名:第2255名
    • 原创:208篇
    • 转载:24篇
    • 译文:2篇
    • 评论:221条
    个人简介
    姓名:Thinkgamer

    Github:https://github.com/thinkgamer

    主攻:云计算/python/数据分析

    程度:熟悉/熟悉/熟悉

    微信:gyt13342445911

    Email:thinkgamer@163.com

    工作状态:在职ing

    心灵鸡汤:只要努力,你就是下一个大牛...

    hadoop/spark/机器学习群:279807394(大神建的群,蹭个管理员)

    欢迎骚扰........
    博客专栏
    最新评论