- 博客(5)
- 资源 (1)
- 收藏
- 关注
转载 MapReduce的原理及执行过程
MapReduce简介MapReduce是一种分布式计算模型,是Google提出的,主要用于搜索领域,解决海量数据的计算问题。 MR有两个阶段组成:Map和Reduce,用户只需实现map()和reduce()两个函数,即可实现分布式计算。MapReduce执行流程 MapReduce原理 MapReduce的执行步骤:1、Map任务处理 1.1 读...
2018-11-15 10:28:36 255
转载 Hive 中parse_url的使用
1、Hive的parse_url函数parse_url(url, partToExtract[, key]) - extracts a part from a URL解析URL字符串,partToExtract的选项包含[HOST,PATH,QUERY,REF,PROTOCOL,FILE,AUTHORITY,USERINFO]。【host,path,query,ref,protocol...
2018-11-14 10:16:44 1408
原创 tableau 连接python
最简单的方式就是装一个现成的环境,anaconda,在里面安装两个包在C盘中搜索startup.bat,放在桌面比较方便,运行弹出此界面即可。 Done!!!参考资料1:https://onlinehelp.tableau.com/current/api/extract_api/en-us/Extract/extract_api_using_python.htm...
2018-08-03 19:11:03 9654 1
原创 五年计划
2018.8-2022.7五年计划1. 成为一个人工智能领域的专家. 2. 说一口流利的英语. 3. 坚持健身,每个月徒步一次或旅行一次. 4. 找个有共同价值观的人结婚.
2018-07-27 09:55:47 536
转载 HIVE知识梳理(转载)
作为个人笔记增加了一些写过的例子,欢迎补充。1、 order by, sort by, distribute by, cluster by 背景表结构 在讲解中我们需要贯串一个 例子,所以需要设计一个情景,对应 还要有一个表结构和填充数据。如下: 有 3 个字段,分别为 personId 标识某一个人, company 标识一家公司名称,money 标识该公司每年盈利收入(单位:万元人民币)per...
2018-06-28 10:17:40 175
py画瀑布图
2018-05-31
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人