安装Apache Hive-2.3.3 1、Hive是什么1.1、Hive是数据仓库数据仓库英文名DataWarehouse,可简写为DW或DWH。数据仓库 ,由数据仓库之父比尔·恩门(Bill Inmon)于1990年提出,主要功能仍是将组织透过资讯系统之联机事务处理(OLTP)经年累月所累积的大量资料,透过数据仓库理论所特有的资料储存架构,作一有系统的分析整理,以利各种分析方法如联机分析处理(OLAP)、数据挖掘(Data ...
mysql视图创建、修改、删除 1. 创建视图################################# CREATE VIEW 视图名(视图列1, 视图列2, ...) AS SELECT 表列1 as 视图列1, 表列1 as 视图列2, ... FROM 表名; #################################...
使用jdbc获取数据库全部表、表包含字段 1. 创建数据源Vo, 封装数据源相关信息;//数据源信息public class DataSource implements Serializable { //数据库类型 private JdbcType jdbcType; //url private String jdbcUrl; //user private ...
安装hbase2.1.0版本 安装前的准备工作: 1). 首先访问官网,下载当前版本2.1.0,下载链接如下: https://www.apache.org/dyn/closer.lua/hbase/2.1.0/hbase-2.1.0-bin.tar.gz 2). 使用WinSCP,将下载完成的bin.tar包,上传至指定目录下;安装步骤: 1. 解压hbase.tar包到指定目录下,以笔者为例,从...
安装mysql 1、初识mysql MySQL是一个关系型数据库管理系统,由瑞典MySQL AB 公司开发,目前属于 Oracle 旗下产品。MySQL 是最流行的关系型数据库管理系统之一,在 WEB 应用方面,MySQL是最好的 RDBMS (Relational Database Management System,关系数据库管理系统) 应用软件。 MySQL是一种关系数据库管理...
搭建hadoop之HDFS 一,HDFS的设计 HDFS是什么:HDFS即Hadoop分布式文件系统(Hadoop分布式文件系统); HDFS干什么:以流式数据访问模式来存储超大文件,运行于商用硬件集群上,是管理网络中跨多台计算机存储的文件系统; HDFS缺点:要求低时间延迟数据访问的应用,存储大量的小文件,多用户写入,任意修改文件;二,HDFS的特点 主从模式:采用去中...
Scrapy执行crawl命令报错:ModuleNotFoundError: No module named 'win32api' 第一次搞爬虫,问题还是蛮多的,以我本地配置为例:window:10python: 3.6.5conda --version: 4.4.101.创建项目scrapy startproject 项目名2.创建爬虫scrapy genspider 爬虫名 网站地址3.编写爬取信息 后面补充4.执行ModuleNotFoundError: No Module named 'win32api'运行立马...
kafka集成strom(0.10.*) 通过上一章节初始kafka,对kafka的基础简单认识,本章节的主要内容是:将使用storm作为消费者,消费kafka端的消息;1. 配置消费者 顾名思义,使用storm消费消息时,消息作为拓扑中的数据源,则承担着spout的角色,那么引发我们的猜想,会不会有一个类承担着消费kafka消息的spout? //1.配置kafka服务地址 //1.1.获取k...
python--使用oop实现二叉树、线性链表 class Tree: class Node: #初始化函数 def __init__(self, data=None, left=None, right=None): self.data = data self.left = left self.right = right ...
初识Kafka(0.10.*) 定义: kafka是一款高吞吐的分布式发布订阅消息系统。kafak是什么?特点: 1.高吞吐、低延迟:每秒可以处理几十万条消息,延迟最低只有几毫秒; 2.可扩展性:kafka集群支持热扩展; 3.持久性、可靠性:消息被持久化到本地磁盘,并支持数据备份防止数据丢失; 4.容错性:允许集群中节点失败,若副本数量为n,则允许n-1个节点失败; 5.高并发:支持数个客户端同时读写; kafka优...