python hbase 报错by_白头雁的博客-云栖社区-阿里云-CSDN博客

本文链接：https://blog.csdn.net/weixin_28568819/article/details/112831067

发布时间：2018-09-05 17:09:00

评论：0

Sqoop是Hadoop生态里，实现Hive、Hbase等大数据数据库与MySQL、Oracle导入导出的工具。

其实就是包含两部分功能：(1)HDFS的读写能力(2)加载JDBC。

发布时间：2018-08-31 17:00:00

评论：0

当我做了很多Spark Core练习，喜欢写map、reduce，后来又开始用SparkSQL ，感觉SQL比mapReduce简洁优雅很多。

SQL是我的短板，通过Spark SQL又练习了group by、join 、case when 等语法。

发布时间：2018-08-29 16:02:00

评论：0

SparkStream在处理流数据时，按时间间隔把数据分成小批，在一个小批中利用RDD

的函数完成各种运算。如果要在各小批之间共享数据，或者保存到每批次的数据到一个集中变量中，就要用到mapWithState函数，在整个流计算任务中维护了一个key-value State对象(应该也是一个RDD)，根据本批次的任务更改State。

发布时间：2018-08-27 09:37:00

评论：0

参考https://blog.csdn.net/plg17/article/details/78758593整理笔记

一、内连接

关键字：inner join on

语句：select * from a_table a inner join b_table bon a.a_id = b.b_id;

执行结果：

说明：组合两个表中的记录，返回关联字段相符的记录，也就是返回两个表的交集(阴影)部分。

发布时间：2018-08-24 08:28:00

评论：0

如何描述一个复杂的连接关系？如图，很容易判断紧邻的2个人关系，但中间的连接很多很乱，怎么判断出两个人的关系呢？并查集就是一种结构，通过保存节点以及节点上的标签，来判断这两个节点是否连接在一起。

发布时间：2018-08-23 11:19:00

评论：0

日志即log，记录发生的事件。以Nginx为例，有error_log和access_log 2个日志。access_log是访问日志，每条访问记录会产生几百字节的数据，随着访问量增加，日志文件会越来越大，必须定期清理日志。

发布时间：2018-08-23 08:11:00

评论：0

首先执行ls -i命令，此时在文件前面会出现一个数字，这个数字是文件的节点号

接着，执行命令

find -inum 节点号 -delete

发布时间：2018-08-22 11:05:00

评论：0

先说说为什么要遍历，二叉树不是已经排好序了么？如果大于当前节点值，搜索右子树，小于当前值，继续搜索左子树。

参考两个sql：

select id,name,grade from student where id=1

select id,name,grade from student where name='李四'

按id查找，id是主键，已经创建索引，用二叉树存储，id就是二叉树节点的key，可以按照二分查找法搜索。

发布时间：2018-08-22 08:59:00

评论：0

一棵二叉树，每一个节点都有左子树和右子树，二叉树的操作都可以递归的调用子树来完成。在C中有指针的概念，子树用指针实现，函数用指针作为参数。但是，Python采用对象引用，对空对象赋值，只在函数作用范围内有效，并不会生成一个新节点。

发布时间：2018-08-20 18:31:00

评论：0

两道笔试题都是选择题，两个知识点，容易做错。

第一题

## 下面程序执行结果

x = 2

def b(a):

x = x+a

b(3)

print(x)

此段程序运行报错，UnboundLocalError: local variable...

发布时间：2018-08-20 18:22:00

评论：0

在实现二叉树的代码时，使用递归调用，当给空叶子节点赋值的时候，发现只修改了局部变量。

因此研究了一下Python中传值和传引用的问题。

实验

实验一

a = None

print(id(a))

b = None

print(id(b))

432...

发布时间：2018-08-20 13:16:00

评论：0

本文首先介绍了二分查找法，采用“循环”和“递归”2种方法实现。采用递归算法实现了二叉树的插入和搜索算法。

一、二分查找法

查找算法的计算复杂度为O(n)、O(logN)、O(1)。

发布时间：2018-08-17 17:26:00

评论：0

我从来没见过我们单位的主库系统，无论是小机或者EMC。如果哪天在值班时，收到通知主库挂了，我会觉得是一个深藏在机房沉重铁门里的大家伙，冒了几缕青烟，紧接着监控上各种Web小图标就都红了....

在5、6年前，我们就希望能用分布式存储和分布式数据库来替代集中存储，觉得分布式廉价，而且高可靠。

发布时间：2018-08-17 10:36:00

评论：0

03年，作者大二买了第一台计算机。记得那时候2种主题的书特别多，注册表和Bios。现在想想《教你21天玩转Bios》这样的书名都像个笑话儿。

这么说是因为BOIS和注册表对普通用户，基本用不上。

发布时间：2018-08-17 00:19:00

评论：0

系统学习三步骤走：理解原理、搭建系统、Api练习。

从哪里找到Api？Document和git。

例如，Kafka在github上的地址github.com/apache/kafka，找到example目录。

发布时间：2018-08-02 18:19:00

评论：0

话说，小哥接触Mysql也有几年了，但总是感觉Mysql有很多神秘的特性，一直也不太敢折腾这家伙。昨天准备动动手，可安装过程就花了2天时间。

期间，错误的以为必须要给mysql server挂载本地目录，对数据进行持久化。

发布时间：2018-08-01 10:01:00

评论：0

从spark 说起，谈谈“流式”计算的理解

spark是一个大数据分布式的计算框架，有一些并行计算的基础会更容易理解分布式计算框架的概念。对比并行计算，谈三个概念：

并行计算

Map Reduce 算子

RDD数据结构

并行计算

spark的任务分为1个driver、多个executor。

发布时间：2018-07-26 17:56:00

评论：0

idea 新建maven 项目

输入maven坐标

maven 坐标

编辑maven文件

Spark 体系

中间层Spark，即核心模块Spark Core，必须在maven中引用。

发布时间：2018-07-23 10:40:00

评论：0

一、最流行的大数据框架Spark

Yarn 环境搭建

Spark History Server 以及 Yarn MapReduce History Servcer

Spark-submit 提交到Yarn 运行

二、Docker部署Hadoop Y...

发布时间：2018-07-20 18:20:00

评论：0

一、线程池

在使用C++的经历中，经常使用多线程(计算密集型)，也经常会思考要如何对多线程控制，但没有采用过线程池思想的实现。

在java并发的学习过程中，了解了Java并发组件J.