排序:
默认
按更新时间
按访问量

CDH大数据平台实施经验总结

1. 平台规划注意事项1.1 业务数据全部存储在datanode上面,所以datanode的存储空间必须足够大,且每个datanode的存储空间尽量保持一致。1.2 管理节点/namenode对存储空间要求不高,主要存储各计算节点datanode的元数据信息,以3个datanode为例,每个dat...

2018-05-30 16:26:36

阅读数:78

评论数:0

Hive中Sqoop的基本用法和常见问题

一、通过Sqoop将Hive表数据导入到Mysql1、第一种是将hive上某张表的全部数据导入到mysql对应的表中。2、第二种是将hive上某张表中的部分数据导入到mysql对应的表中。两种方式的区别在于第二种情况需要指定要导入数据的列名称。两种情况的导入方式分别如下:1.全部导入Sqoop e...

2018-05-25 17:42:05

阅读数:78

评论数:0

Hive的基本用法

一、创建表hive建表的时候默认的分割符是'\001',若在建表的时候没有指明分隔符,load文件的时候文件的分隔符需要是'\001';若文件分隔符不是'001',程序不会报错,但表查询的结果会全部为'null';1、建表的时候指定分隔符:create table pokes(foo int,ba...

2018-05-24 11:44:30

阅读数:249

评论数:0

【推荐系统系列6】ALS推荐算法原理

ALS算法原理ALS算法是2008年以来,用的比较多的协同过滤算法。它已经集成到Spark的Mllib库中,使用起来比较方便。从协同过滤的分类来说,ALS算法属于User-Item CF,也叫做混合CF。它同时考虑了User和Item两个方面。用户和商品的关系,可以抽象为如下的三元组:&a...

2018-04-11 16:39:39

阅读数:192

评论数:0

【推荐系统系列5】协同过滤算法的基本思想

在现今的推荐技术和算法中,最被大家广泛认可和采用的就是基于协同过滤的推荐方法。本文将带你深入了解协同过滤的秘密。下面直接进入正题1 什么是协同过滤协同过滤是利用集体智慧的一个典型方法。要理解什么是协同过滤 (Collaborative Filtering, 简称 CF),首先想一个简单的问题,如果...

2018-04-11 15:46:21

阅读数:85

评论数:0

经济管理学中常用的模型分析法

经济管理学中常用的模型分析法常用的分析模型有:波特五力模型、波士顿矩阵、鱼骨分析法、5W1H分析法、麦肯锡7S模型、杜邦分析法、营销漏斗模型、可行性分析、绩效分析;SMART原则、SWOT分析、PEST分析法、GROW模型、3C理论、顾客细分、事故树分析法。比较系统的模型分类有:第一篇:战略与组织...

2018-03-28 09:24:04

阅读数:455

评论数:0

【推荐系统系列4】协同过滤算法的理论与实现

一:协同过滤算法简介    关于协同过滤的一个最经典的例子就是看电影,有时候不知道哪一部电影是我们喜欢的或者评分比较高的,那么通常的做法就是问问周围的朋友,看看最近有什么好的电影推荐。在问的时候,都习惯于问跟自己口味差不 多的朋友,这就是协同过滤的核心思想。    协同过滤是在海量数据中挖掘出小部...

2018-03-24 09:01:08

阅读数:143

评论数:0

【推荐系统系列3】推荐系统中如何解决冷启动

0、前言推荐系统需要根据用户的历史行为和兴趣来预测用户未来的行为和兴趣,因此大量的用户行为数据就称为了推荐系统的重要组成部门和先决条件。但是,很多个性化推荐系统的网站从开始就没有这些用户行为数据,所以如何在没有大量用户行为数据的情况下进行个性化推荐并且让用户对推荐的结果感到满意,这就是冷启动问题。...

2018-03-21 14:02:15

阅读数:100

评论数:0

【推荐系统系列2】基于用户行为数据的推荐系统方法

0、写在前面基于用户行为数据的应用其实早在个性化推荐系统诞生之前就已经在互联网上非常流行了,其中最典型的就是各种各样的排行榜。这些排行榜包括热门排行榜和趋势排行榜等。尽管这些排行榜应用仅仅基友简单的用户行为统计,但他们在互联网上得到了很多用户的青睐。因此,用户行为数据的分析是很多优秀产品设计的基础...

2018-03-21 11:40:11

阅读数:156

评论数:0

【推荐系统系列1】推荐系统评测指标

0、前言: 什么才是好的推荐系统?这是推荐系统评测的需要解决的首要问题。那我们怎么去判断一个系统的好坏呢?我们认为一个好的推荐系统不仅仅能够准确的预测用户的行为,而且还能够扩展用户的视野,帮助用户发现那些他们可能会感兴趣但却不那么容易发现的东西。 评价一个推荐系统的好坏一般有几个不同的指标,这些指...

2018-03-21 11:13:19

阅读数:179

评论数:0

什么是列式存储数据库?

列存储不同于传统的关系型数据库,其数据在表中是按行存储的,列方式所带来的重要好处之一就是,由于查询中的选择规则是通过列来定义的,因此整个数据库是自动索引化的。按列存储每个字段的数据聚集存储,在查询只需要少数几个字段的时候,能大大减少读取的数据量,一个字段的数据聚集存储,那就更容易为这种聚集存储设计...

2018-03-14 10:52:46

阅读数:254

评论数:0

Hive中日期格式转换用法

在Hive中,经常会使用到对日期和时间戳的各种处理,本文总结了Hive中各类日期格式的处理方法,方便读者快速上手,解决实际问题!

2017-06-29 10:59:52

阅读数:442

评论数:0

使用Sqoop从MySQL导入数据到Hive和HBase

使用Sqoop从MySQL导入数据到Hive和HBase

2017-05-31 18:22:56

阅读数:604

评论数:0

去哪儿的用户画像构建策略及应用实践

我们做用户画像的目的有两个: 必须从业务场景出发,解决实际的业务问题,之所以进行用户画像要么是获取新用户,或者是提升用户体验,或者是挽回流失用户等有明确的业务目标 。 根据用户画像的信息做产品设计,必须要清楚知道用户长什么样子,有什么行为特征和属性,这样才能为用户设计产品或开展营销活动。

2017-05-05 09:17:31

阅读数:2287

评论数:0

机器学习中用可视化手段来进行模型评估和参数调优

本篇文章详细阐述机器学习模型评估和参数调优。将主要围绕两个问题来阐述: “知其所以然”:当你选择的一个机器学习模型运行时,你要知道它是如何工作的; “青出于蓝”:更进一步,你得知道如何让此机器学习模型工作的更优。 模型评估的方法 一般情况来说,F1评分或者R平方(R...

2017-04-27 15:27:51

阅读数:1381

评论数:0

sqoop同步数据实践

本章主要介绍了Sqoop在数据同步场景下的应用实践,主要涉及到讲解Sqoop同步数据方面的多种实现方式和功能。Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HD...

2017-04-25 16:05:14

阅读数:900

评论数:0

用Shell脚本操作mysql数据库

可以用shell脚本操作MySQL数据库,使用mysql的-e参数可以执行各种sql的(创建,删除,增,删,改、查)等各种操作 。 MySQL -hhostname -Pport -uusername -ppassword -e 相关mysql的sql语句,不用在mysql的提示符下运行my...

2017-04-25 14:32:12

阅读数:504

评论数:0

生产经营中常用的预测算法

常见的预测算法有: 1.简易平均法,包括几何平均法、算术平均法及加权平均法; 2.移动平均法,包括简单移动平均法和加权移动平均法; 3,指数平滑法,包括 一次指数平滑法和二次指数平滑法,三次指数平滑法; 4,线性回归法,包括一元线性回归和二元线性回归,下面我一一的简单介绍一下各种方法。 ...

2017-04-20 13:35:50

阅读数:2331

评论数:0

Cloudera在Ubuntu的安装部署

1. 安装前的准备  准备好Ubuntu离线source,配置/etc/apt/source.list  准备好Cloudera Hadoop离线source,配置/etc/apt/source.list.d/cloudera.list  同步集群的/etc/hosts  ssh免密码登...

2017-04-13 11:26:52

阅读数:399

评论数:0

Hue上的Oozie如何构建工作流和定时任务

Oozie是什么? Oozie是一种Java Web应用程序,它运行在Java servlet容器——即Tomcat——中,并使用数据库来存储以下内容: 工作流定义当前运行的工作流实例,包括实例的状态和变量 Hue是什么?  Hue是一个可快速开发和调试Hadoop生态系统各种应用的一个基...

2017-04-13 11:09:12

阅读数:5390

评论数:2

提示
确定要删除当前文章?
取消 删除
关闭
关闭