自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

转载 关于HiveQL的常用语法总结(四)——其它技巧(hive代码优化)

大数据有一个特点,就是数据量大,因此如果能提高代码本身的运行效率,或者是使得代码在分布式机器上能更好的进行计算,就会极大的节省时间成本或者是资源成本。所以,本节想给大家分享下hive的优化。引言——优化思路首先是一个思路的问题。hive代码该怎么去优化呢?从哪里着手? 显然这是代码跑的比较慢之后,最先想到的两个问题。要先回答这个问题,我们得搞清楚hive代码的运行机制,有多少个步骤,在每个步骤上是

2017-05-21 18:09:26 792

原创 关于HiveQL的常用语法总结(三)——常用函数

这一节,常常可以使得我们的hive代码简洁高效,甚至是完成一些用常规方法“基本完成不了”的事情,所以这一节我也想跟大家分享下。本节主要分享下平时经常用到的但又容易忽略的函数,肯定不是Hive的全部内置函数。Hive的全部内置函数可以从获取。 参考链接:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF5、日期函数在

2017-05-21 16:43:37 2833

原创 关于HiveQL的常用语法总结(二)——DML

本节,应该是数据库作业中使用最频繁的内容,也是至为重要的一节。但是也不必紧张,无非就是增删改查,重点在于查,为什么呢?在大数据时代,最重要的两个主题是分析和挖掘。无论是分析还是挖掘,其基础都是有数据可依据,那么就需要将目标数据查找出来,因此这是最基础的一步,当然也就是用的最多的一步。本节主要讲四个方面:导入数据,插入数据,删除数据,查询数据。1、导入数据一般来说,在SQL创建表后,我们可以使用ins

2017-05-21 16:22:57 693

原创 关于HiveQL的常用语法总结(一)——DDL

利用Hadoop平台做用户画像也有一些时日了,用到Hive的时候是非常多的,今年年初就想总结下Hive中常用的语法情况,因为各种各样的原因,一直拖到现在,惭愧…总算可以稍作总结下了,这个主题我想分为三个部分进行叙述:DDL——DML——其它技巧。 本系列文章的定位是:总结hive的常用知识点和实战经验,不涉及艰深的大数据理论架构等问题。 好啦,直接进入主题吧。1、数据库语言简介数据库语言有四大功

2017-05-21 14:34:06 1135

转载 常见推荐系统—综述

1.关于推荐系统随着互联网技术和社会化网络的发展,每天有大量包括博客,图片,视频,微博等等的信息发布到网上。传统的搜索技术已经不能满足用户对信息发现的需求,原因有多种,可能是用户很难用合适的关键词来描述自己的需求,也可能用户需要更加符合他们兴趣和喜好的结果,又或是用户无法对自己未知而又可能感兴趣的信息做出描述。推荐引擎的出现,可以帮用户获取更丰富,更符合个人口味和更加有意义的信息。 个性化推荐根据

2017-05-16 23:46:16 1023 1

原创 迁移学习系列(一)

本系列梗概本次想分享的是迁移学习,不是像目前大部分的论文一样讲想法讲思路,当然我不是觉得思路想法不重要,其实是觉得很重要,但同时我也是一个很注重实战的人,所以想在这里通过一次金融大数据比赛来跟大家分享一次实战经验,谈谈迁移学习。大致分为五个章节来叙述: 1.事情前因后果的概述,思路之类的 2.数据的预处理 3.构建深度学习网络 4.迁移深度学习网络 5.再次构建深度学习网络题目梗概1、首先

2017-05-13 23:03:57 1123

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除