大数据
编程有了模型
一个专注于用模型树学习法搭建计算机领域基础理论知识体系的专栏。
展开
-
21道海量数据面试题
第一部分: 1、一个超大文件(一台机器计算不了),里面存放的都是ip,一行存放一个,求这个文件中哪一个ip出现的次数最多? 2、个超大文件,里面存放的都是url,一行存放一个,求两个文件中相同的url? 3、一个超级大的文件,里面存放都是url,一行一个,用户给定一个url,如何快速判断url是否在文件中? 第二部分: 1、给个超过100G的logfile, log中存着IP地址...原创 2019-07-22 10:39:59 · 514 阅读 · 0 评论 -
海量数据的常用10大解决方案
教你如何迅速秒杀掉:99%的海量数据处理面试题: https://blog.csdn.net/v_july_v/article/details/7382693 July:海量数据处理: https://blog.csdn.net/u013074465/article/details/40504281 1、布隆过滤器 2、Hash散列 3、BitMap: 降低内存的使用量。 操作复...原创 2018-12-12 21:16:28 · 327 阅读 · 0 评论 -
Hive练习题目
----hive 基本操作 1-------------数据自己造 a表:(id int,name string) b表:(id int,job_id int,num int) c表:(job_id int,job string) --建表语句 --加载数据 ---------a表和b表进行链接操作,并观察结果-------------- --内连接 -- 左连接 lef...原创 2018-12-27 09:56:55 · 2210 阅读 · 0 评论 -
Hive面试题
注:hive-03中的内容 Hive面试题一: 现有这么一批数据,现要求出: 每个用户截止到每月为止的最大单月访问次数和累计到该月的总访问次数 三个字段的意思: 用户名,月份,访问次数 A,2015-01,5 A,2015-01,15 B,2015-01,5 A,2015-01,8 B,2015-01,25 A,2015-01,5 A,2015-02,4 A,2015-02,6 B,2...原创 2019-07-22 10:39:16 · 236 阅读 · 0 评论 -
Sqoop-学习日志-20181227
目录 1、Sqoop的产生背景 2、Sqoop的作用 3、Sqoop的本质 4、Sqoop的安装 5、Sqoop操作练习 1、Sqoop的产生背景 原来的大量结构化数据的存储是集中式存储(传统的关系型数据库进行存储的),随着数据的不断扩增,传统的关系数据库无法承载这么庞大的数据,这个时候出现了大数据平台hadoop,但是面临一个问题:关系型数据库的数据如何转移到大数据平台上呢?于是S...原创 2018-12-27 21:03:27 · 910 阅读 · 0 评论 -
Sqoop操作练习
导入: 传统关系型数据库---->大数据平台的 import mysql------>hadoop --connect 指定关系型数据库链接url mysql:jdbc://hadoop02:3306/ --username 指定数据库的用户名 --password 指定数据库的密码 --table ...原创 2018-12-27 21:03:02 · 525 阅读 · 0 评论