发布时间:2018-09-05 17:09:00
浏览:1545
评论 :0
Sqoop是Hadoop生态里,实现Hive、Hbase等大数据数据库与MySQL、Oracle导入导出的工具。
其实就是包含两部分功能:(1)HDFS的读写能力(2)加载JDBC。
发布时间:2018-08-31 17:00:00
浏览:950
评论 :0
当我做了很多Spark Core练习,喜欢写map、reduce,后来又开始用SparkSQL ,感觉SQL比mapReduce简洁优雅很多。
SQL是我的短板,通过Spark SQL又练习了group by、join 、case when 等语法。
发布时间:2018-08-29 16:02:00
浏览:1221
评论 :0
SparkStream在处理流数据时,按时间间隔把数据分成小批,在一个小批中利用RDD
的函数完成各种运算。如果要在各小批之间共享数据,或者保存到每批次的数据到一个集中变量中,就要用到mapWithState函数,在整个流计算任务中维护了一个key-value State对象(应该也是一个RDD),根据本批次的任务更改State。
发布时间:2018-08-27 09:37:00
浏览:900
评论 :0
参考https://blog.csdn.net/plg17/article/details/78758593整理笔记
一、内连接
关键字:inner join on
语句:select * from a_table a inner join b_table bon a.a_id = b.b_id;
执行结果:
说明:组合两个表中的记录,返回关联字段相符的记录,也就是返回两个表的交集(阴影)部分。
发布时间:2018-08-24 08:28:00
浏览:1157
评论 :0
如何描述一个复杂的连接关系?如图,很容易判断紧邻的2个人关系,但中间的连接很多很乱,怎么判断出两个人的关系呢?并查集就是一种结构,通过保存节点以及节点上的标签,来判断这两个节点是否连接在一起。
发布时间:2018-08-23 11:19:00
浏览:1025
评论 :0
日志即log,记录发生的事件。以Nginx为例,有error_log和access_log 2个日志。access_log是访问日志,每条访问记录会产生几百字节的数据,随着访问量增加,日志文件会越来越大,必须定期清理日志。
发布时间:2018-08-23 08:11:00
浏览:1059
评论 :0
首先执行ls -i命令,此时在文件前面会出现一个数字,这个数字是文件的节点号
接着,执行命令
find -inum 节点号 -delete
发布时间:2018-08-22 11:05:00
浏览:936
评论 :0
先说说为什么要遍历,二叉树不是已经排好序了么?如果大于当前节点值,搜索右子树,小于当前值,继续搜索左子树。
参考两个sql:
select id,name,grade from student where id=1
select id,name,grade from student where name='李四'
按id查找,id是主键,已经创建索引,用二叉树存储,id就是二叉树节点的key,可以按照二分查找法搜索。
发布时间:2018-08-22 08:59:00
浏览:2027
评论 :0
一棵二叉树,每一个节点都有左子树和右子树,二叉树的操作都可以递归的调用子树来完成。在C中有指针的概念,子树用指针实现,函数用指针作为参数。但是,Python采用对象引用,对空对象赋值,只在函数作用范围内有效,并不会生成一个新节点。
发布时间:2018-08-20 18:31:00
浏览:903
评论 :0
两道笔试题都是选择题,两个知识点,容易做错。
第一题
## 下面程序执行结果
x = 2
def b(a):
x = x+a
b(3)
print(x)
此段程序运行报错,UnboundLocalError: local variable...
发布时间:2018-08-20 18:22:00
浏览:787
评论 :0
在实现二叉树的代码时,使用递归调用,当给空叶子节点赋值的时候,发现只修改了局部变量。
因此研究了一下Python中传值和传引用的问题。
实验
实验一
a = None
print(id(a))
b = None
print(id(b))
432...
发布时间:2018-08-20 13:16:00
浏览:1134
评论 :0
本文首先介绍了二分查找法,采用“循环”和“递归”2种方法实现。采用递归算法实现了二叉树的插入和搜索算法。
一、二分查找法
查找算法的计算复杂度为O(n)、O(logN)、O(1)。
发布时间:2018-08-17 17:26:00
浏览:975
评论 :0
我从来没见过我们单位的主库系统,无论是小机或者EMC。如果哪天在值班时,收到通知主库挂了,我会觉得是一个深藏在机房沉重铁门里的大家伙,冒了几缕青烟,紧接着监控上各种Web小图标就都红了....
在5、6年前,我们就希望能用分布式存储和分布式数据库来替代集中存储,觉得分布式廉价,而且高可靠。
发布时间:2018-08-17 10:36:00
浏览:834
评论 :0
03年,作者大二买了第一台计算机。记得那时候2种主题的书特别多,注册表和Bios。现在想想《教你21天玩转Bios》这样的书名都像个笑话儿。
这么说是因为BOIS和注册表对普通用户,基本用不上。
发布时间:2018-08-17 00:19:00
浏览:1304
评论 :0
系统学习三步骤走:理解原理、搭建系统、Api练习。
从哪里找到Api?Document和git。
例如,Kafka在github上的地址github.com/apache/kafka,找到example目录。
发布时间:2018-08-02 18:19:00
浏览:1377
评论 :0
话说,小哥接触Mysql也有几年了,但总是感觉Mysql有很多神秘的特性,一直也不太敢折腾这家伙。昨天准备动动手,可安装过程就花了2天时间。
期间,错误的以为必须要给mysql server挂载本地目录,对数据进行持久化。
发布时间:2018-08-01 10:01:00
浏览:951
评论 :0
从spark 说起,谈谈“流式”计算的理解
spark是一个大数据分布式的计算框架,有一些并行计算的基础会更容易理解分布式计算框架的概念。对比并行计算,谈三个概念:
并行计算
Map Reduce 算子
RDD数据结构
并行计算
spark的任务分为1个driver、多个executor。
发布时间:2018-07-26 17:56:00
浏览:1594
评论 :0
idea 新建maven 项目
输入maven坐标
maven 坐标
编辑maven文件
Spark 体系
中间层Spark,即核心模块Spark Core,必须在maven中引用。
发布时间:2018-07-23 10:40:00
浏览:1070
评论 :0
一、最流行的大数据框架Spark
Yarn 环境搭建
Spark History Server 以及 Yarn MapReduce History Servcer
Spark-submit 提交到Yarn 运行
二、Docker部署Hadoop Y...
发布时间:2018-07-20 18:20:00
浏览:1018
评论 :0
一、线程池
在使用C++的经历中,经常使用多线程(计算密集型),也经常会思考要如何对多线程控制,但没有采用过线程池思想的实现。
在java并发的学习过程中,了解了Java并发组件J.