Hive的数据类型解析和表的操作实例

一:Hive中的数据类型 Hive支持两种数据类型,一类叫原子数据类型,一类叫复杂数据类型。   原子数据类型包括数值型、布尔型和字符串类型,具体如下表所示: 基本数据类型 类型 描述 示例 TINYINT 1个字节(8位)有符号整数 1 SMALLINT 2字节(16位)...
阅读(3751) 评论(0)

Spark RDD编程(Python和Scala版本)

Spark中的RDD就是一个不可变的分布式对象集合,是一种具有兼容性的基于内存的集群计算抽象方法,Spark则是这个方法的抽象。        Spark的RDD操作分 和为转化操作(transformation)和行动操作(action),两者的区别在于:        转化操作返回一个新的RDD对象        行动操作则会对RDD产生一个计算结果,并把结果返回到驱动器...
阅读(5273) 评论(2)

Spark 的 Shell操作,核心概念,构建独立应用

1:Spark中的Python和Scala的shell 2:Spark核心概念简介 3:独立应用 4:Spark数据集 一:Spark中的Python 和Scala  的shell        1:shell设置显示日志        进入Spark的安装目录,启动spark的集群,输入bin/pyspark,但此时会伴有大量的日志信息,在这里想要缩减启动信息...
阅读(1959) 评论(0)

《推荐系统》基于图的推荐算法

1:概述 2:原理简介 3:代码实现 一:概述         基于图的模型(graph-based model)是推荐系统中的重要内容。其实,很多研究人员把基于邻域的模型也称为基于图的模型,因为可以把基于邻域的模型看做基于图的模型的简单形式         在研究基于图的模型之前,首先需要将用户的行为数据,表示成图的形式,下面我们讨论的用户行为数据是用二元数组组成的,其中每个二元组...
阅读(7504) 评论(2)

[置顶] 《推荐系统》基于标签的用户推荐系统

1:联系用户兴趣和物品的方式 2:标签系统的典型代表 3:用户如何打标签 4:基于标签的推荐系统 5:算法的改进 源代码查看地址:github查看 一:联系用户兴趣和物品的方式     推荐系统的目的是联系用户的兴趣和物品,这种联系方式需要依赖不同的媒介。目前流行的推荐系统基本上是通过三种方式联系用户兴趣和物品。                                           1:利用用户喜欢过的物品,给用户推荐与他喜欢过的物品...
阅读(15505) 评论(7)

Spark的伪分布安装和wordcount测试

一:环境说明              Ubuntu:15.10(不稳定版,建议安装在稳定版,Ubuntu下XX..4是稳定的)              Hadoop:2.6              Scala:2.11.8              Java:1.7.0              Spark:1.6.1 2:hadoop伪分布安装...
阅读(2651) 评论(0)

《Hadoop进阶》利用Hadoop构建豆瓣图书推荐系统

转载请注明出处: 转载自  Thinkgamer的CSDN博客:blog.csdn.net/gamer_gyt 代码下载地址:点击查看 1:推荐系统概述 2:需求分析:推荐系统的指标设计 3:算法模型:基于物品的协同过滤并行算法设计 4:架构设计:推荐系统架构 5:程序实现:MR2V程序实现 6:推荐系统评估 一、推荐...
阅读(11419) 评论(7)

[置顶] 《推荐系统》基于用户和Item的协同过滤算法的分析与实现(Python)

1:协同过滤算法简介 2:协同过滤算法的核心 3:协同过滤算法的应用方式 4:基于用户的协同过滤算法实现 5:基于物品的协同过滤算法实现 一:协同过滤算法简介     关于协同过滤的一个最经典的例子就是看电影,有时候不知道哪一部电影是我们喜欢的或者评分比较高的,那么通常的做法就是问问周围的朋友,看看最近有什么好的电影推荐。在问的时...
阅读(20864) 评论(28)

《hadoop进阶》PeopleRank从社交关系中挖掘价值用户

转载请注明出处: 转载自  Thinkgamer的CSDN博客: blog.csdn.net/gamer_gyt 代码下载地址:点击查看 1:PageRank 与 PeopleRank 2:需求分析:挖掘CSDN博客的价值用户 3:算法模型:PeopleRank算法 4:架构设计:从数据准备到PR算法的MR化 5:程序开发:hadoop实现PeopleRank算法...
阅读(11131) 评论(2)

《排序算法》——希尔排序,桶式排序(Java)

一:希尔排序 也称缩小增量排序,是直接插入排序算法的一种更高效的改进版本。希尔排序是非稳定排序算法, 先取一个小于n的整数d1作为第一个增量,把文件的全部记录分组。所有距离为d1的倍数的记录放在同一个组中。先在各组内进行直接插入排序; 然后,取第二个增量d2<d1重复上述的分组和排序,直至所取的增量 =1( < … 该方法实质上是一种分组插入方法...
阅读(1339) 评论(0)

[置顶] 《hadoop进阶》web日志系统 KPI指标的分析与实现

1:Web日志分析系统概述 2:需求分析:日志提取预处理,KPI指标设计,存储与展现 3:算法模型:Hadoop并行算法 4:架构设计:用Maven构建hadoop项目 5:程序实现:MR2V程序实现 6:结果可视化 一:Web日志分析系统概述 Web日志由Web]服务器产生,可能是Nginx,Apache,Tomcat等,从Web日志中我们可以提取到很多有用的信息,比如说网...
阅读(10892) 评论(3)

《矩阵》——稀疏矩阵(Java)

转载请注明出处: 转载自  Thinkgamer的CSDN博客:blog.csdn.net/gamer_gyt 1:稀疏矩阵的背景 2:什么是稀疏矩阵? 3:为什么要对稀疏矩阵进行压缩存储以及压缩存储的方式? 4:稀疏矩阵的相关运算 一:背景         第一此介绍稀疏矩阵是在数据结构学习时,然后当时并没有多么用心的去学习它,因为,感觉它在实际应用中很少遇见,直...
阅读(3992) 评论(0)

《图论》——图的存储与遍历(Java)

一:图的分类 1:无向图         即两个顶点之间没有明确的指向关系,只有一条边相连,例如,A顶点和B顶点之间可以表示为 也可以表示为,如下所示                       2:有向图         顶点之间是有方向性的,例如A和B顶点之间,A指向了B,B也指向了A,两者是不同的,如果给边赋予权重,那么这种异同便更加显著了...
阅读(7455) 评论(3)

《树》——二叉树(Java)

完整代码下载地址: 点击下载 1:二叉树的分类 (1)空二叉树——如图(a); (2)只有一个根结点的二叉树——如图(b); (3)只有左子树——如图(c); (4)只有右子树——如图(d); (5)完全二叉树——如图(e)。 2:二叉树的相关术语 树的结点:包含一个数据元素及若干指向子树的分支; 孩子结点:结点的子树的根称为该结点的孩...
阅读(1347) 评论(0)

《链表》——单向链表和双向链表(Java)

完整的代码地址为:github  点击查看 单链表 单链表包括数据域和指向下一个节点的指针域,其结构如上图所示 首先定义一个数据类: class DATA{ //定义链表的一个节点 String key; //节点的关键字 String name; int age; } 定义一个链表类(包括以下几种方法): 1:在尾部添加节点...
阅读(1635) 评论(0)

《栈 队列》——栈与队列(Java)

一:对列 队列是一种先进先出的数据结构 实现代码: package Queue; /* * 使用java构建队列,并模拟实现队列的入队和出对方法 */ public class Queue { //队列类 private int maxSize; //定义队列的长度 private int[] arrQueue; //队列 private int rear...
阅读(1367) 评论(0)

《排序算法》——归并排序,插入排序(Java)

一:归并排序 算法步骤: 1、申请空间,使其大小为两个已经排序序列之和,该空间用来存放合并后的序列 2、设定两个指针,最初位置分别为两个已经排好序列的起始位置 3、比较两个指针所指向的元素,选择相对小的元素到合并空间,并移动指针到下一位置 4、重复步骤3直到某一指针达到序列结尾 5、将另一序列下剩下的所有元素直接复制合并到序列结尾 归并排序用到了分治策略。 用分治策略解决问题分...
阅读(1357) 评论(0)

《机器学习实战》利用PCA来简化数据

=====================================================================   《机器学习实战》系列博客是博主阅读《机器学习实战》这本书的笔记也包含一些其他python实现的机器学习算法     github 源码同步:https://github.com/Thinkgamer/Machine-Learning-Wit...
阅读(2342) 评论(0)

《机器学习实战》预测数值型数据-回归(Regression)

回归的一般方法: (1)收集数据:采用任意方法收集数据 (2)准备数据:回归需要数值型数据,标称型数据将被转化成二值型数据 (3)分析数据:绘出数据的可视化二维图将有助于对数据做出理解和分析,在采用缩减法求得新回归系数之后,可以将新拟合线在图上作为对比 (4)训练算法:求得回归系数 (5)测试算法:使用R2或者预测值和数据的拟合度,来分析模型的效果 (6)使用算法:使用回归,可以在给定输入的时候预测出一个数值,这是对分类方法的提升,因为这样可以预测连续性数据而不仅仅是离散的类别标签 github...
阅读(6585) 评论(5)

《机器学习实战》AdaBoost算法的分析与实现

=====================================================================   《机器学习实战》系列博客是博主阅读《机器学习实战》这本书的笔记也包含一些其他python实现的机器学习算法     github 源码同步:https://github.com/Thinkgamer/Machine-Learning-With-Py...
阅读(5195) 评论(0)
242条 共13页首页 上一页 1 2 3 4 5 ... 下一页 尾页
    Thinkgamer微博
    微信公众号【码农故事多】
    个人资料
    • 访问:873281次
    • 积分:10380
    • 等级:
    • 排名:第1802名
    • 原创:218篇
    • 转载:22篇
    • 译文:2篇
    • 评论:294条
    个人简介
    姓名:Thinkgamer

    Github:https://github.com/thinkgamer

    主攻:云计算/python/数据分析

    程度:熟悉/熟悉/熟悉

    微信:gyt13342445911

    Email:thinkgamer@163.com

    工作状态:在职ing

    心灵鸡汤:只要努力,你就是下一个大牛...

    hadoop/spark/机器学习群:279807394(大神建的群,蹭个管理员)

    欢迎骚扰........
    博客专栏
    最新评论