大数据生态圈
文章平均质量分 93
大数据相关知识
JinChao94
做点笔记,仅作参考
展开
-
数据库:数据库练习表格
仅作为个人数据库测试使用,节省时间SET FOREIGN_KEY_CHECKS=0;-- ------------------------------ Table structure for stu-- ----------------------------DROP TABLE IF EXISTS `stu`;CREATE TABLE `stu` ( `id` int(11) NOT NULL AUTO_INCREMENT, `stu_num` int(11) DEFAULT原创 2020-09-18 14:01:39 · 744 阅读 · 0 评论 -
大数据:Hadoop:集群搭建(2.0+)
方案规划 方案,版本 三个集群 软件版本基本配置软件安装软件公共配置(复制虚拟镜像)软件特定配置集群初始化测试原创 2020-11-18 01:07:09 · 263 阅读 · 0 评论 -
大数据:综合集群搭建(2.0+)
方案规划 方案,版本 三个集群 软件版本基本配置软件安装软件公共配置(复制虚拟镜像)软件特定配置集群初始化测试原创 2020-11-16 11:31:29 · 359 阅读 · 0 评论 -
大数据:Hadoop:单机搭建(1.0+)
配置Hadoop 1.0版本4个文件 1 vim hadoop-env.shexport JAVA_HOME=/usr/java/jdk1.7.0_65 2 vim core-site.xml<configuration> <!-- 指定HDFS的namenode的通信地址 -->...原创 2019-09-15 15:13:01 · 113 阅读 · 0 评论 -
大数据:Scala:数据结构:数组 + 列表
数组:在使用Array声明定长数组 用圆括号区别Java [ ]方式一: val 数组名 = new Array[数据类型](长度)//声明一个长度为4的整型数组,每个数组元素初始化为0val intArray = new Array[Int](4) //给第1个元素赋值为1intArray(0) = 1方式二: val 数组名 = Array(元素1,元素2,元素3.......元素n)//快速声明和赋值val intValueArr = Array(1,2,...原创 2020-09-07 18:40:48 · 258 阅读 · 0 评论 -
大数据:kafka:shell操作
创建主题 bin/kafka-toipcs.sh --zookeeper 集群地址 --create --replication-factor 副本数量 --partitions 分区数量 --topic 主题名 查看主题列表 bin/kafka-topics.sh --zookeeper 集群地址 --list 查看主题详情 bin/kafka-topi...原创 2020-11-05 10:05:34 · 293 阅读 · 0 评论 -
大数据:canal介绍
canal 译意水道/管道/,主要用于 MySQL 数据库增量日志解析,提供增量数据订阅和消费canal 工作原理canal 模拟 MySQL slave 的交互协议,伪装成MySQL slave ,向 MySQL master 发送dump 协议 MySQL master 收到 dump 请求,开始推送 binary log 给 slave (即 canal ) canal 解析 binary log 对象(原始为 byte 流)----->kafka等...转载 2020-10-27 00:11:51 · 657 阅读 · 0 评论 -
大数据:canal:Message数据格式和解析
message{id,Entry}Entry { 1. HeaderlogfileName [binlog文件名] logfileOffset [binlog position] executeTime [ binlog里记录变更发生的时间戳] schemaName [数据库实例] tableName [表名] eventType [insert/update/delete类型]2. entryType [...原创 2020-10-26 14:40:11 · 5095 阅读 · 1 评论 -
大数据:canal:配置文件 + 模板
canal--common参数参数 参数说明 默认值 canal.id 每个canal server实例唯一标识,保证每个不同即可,暂无实际意义 1 canal.ip server绑定的本地主机IP信息,默认当前主机 无 canal.port server提供socket服务的端口 11111 canal.metrics.pull.port 11112 canal.zkServers canal server...原创 2020-10-26 11:05:59 · 496 阅读 · 0 评论 -
大数据:kafka:消费者程序
1.maven项目:依赖 <dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka-clients</artifactId> <version>1.1.0</version> </dependency> <dependency> <group原创 2020-10-21 13:55:18 · 284 阅读 · 0 评论 -
大数据:图数据库介绍--v1.0
数据库数据模型大体分为两类:关系型数据库 和 非关系型数据库分类一:关系型数据库代表:Oracle、MySQL、SqlServer分类二:NoSQL非关系型数据库 分为四种键-值存储库(Key-Value-stores) BigTable实现(BigTable-implementations) 文档库(Document-stores) 图形数据库(Graph Database) 图形数据库最受关注,主要代表 Neo4J ,大数据的发展趋势方向...原创 2020-09-10 15:34:27 · 664 阅读 · 0 评论 -
大数据:spark:创建操作 + 转换操作
parallelize和makeRDD相同点:都是从集合中创建RDD不同点:parallelize可以指定分区数,也可以默认系统分区数; makeRDD会为对象创建最佳分区(固定:由系统决定)原创 2020-09-08 14:58:09 · 213 阅读 · 0 评论 -
大数据:Hadoop:MapReduce实现WordCount
注意:1.Java语言编写,数据类型需要用Hadoop自带的数据类型!! 2.三个文件:map,reduce,main(driver) 需要的jar包 $HADOOP_HOME/share/hadoop/common/ $HADOOP_HOME/share/hadoop/common/lib $HADOOP_HOME/share/hadoop/mapredudce $HADOOP_HOME/share/hadoo原创 2020-08-24 14:38:40 · 207 阅读 · 0 评论 -
大数据:Spark案例:根据日志获取最大访问网页
目标需求:根据网站访问日志的到访问量最高的页面数据格式:import org.apache.spark.{SparkConf, SparkContext}//需求:根据网站访问日志的到访问量最高的页面object MyWebLogCount { def main(args: Array[String]): Unit = { //开发过程采用local模式,消除bug再打包部署 //定义一个SparkConf(配置参数) val conf = new.原创 2020-08-24 14:08:25 · 516 阅读 · 1 评论 -
大数据:实时计算spark streaming案例
import org.apache.spark.SparkConfimport org.apache.spark.storage.StorageLevelimport org.apache.spark.streaming.{Seconds, StreamingContext}//object相当于Java中的static静态object NetworkWordCount { def main(args: Array[String]): Unit = { //创建一个Spark.原创 2020-08-24 13:45:03 · 322 阅读 · 0 评论 -
大数据:sqoop:命令和参数
hive sparkHadoop pig原创 2020-11-06 14:37:05 · 2112 阅读 · 2 评论 -
大数据:Hadoop:单机搭建(2.0+)
一、Linux准备1.1虚拟机vmnet1配置 host-only 192.168.8.88 255.255.255.0 1.2修改ip 192.168.8.101 255.255.255.0 1.3修改主机名 vim /etc/sysconfi...原创 2019-08-26 19:42:23 · 605 阅读 · 0 评论 -
大数据:Hadoop:集群搭建HA(2.0+)
集群规划: 主机名 IP 安装的软件 运行的进程itcast01 192.168.8.101 jdk,hadoop NameNode,DFSZKFailoverControlleritcast02...原创 2019-08-26 23:25:00 · 470 阅读 · 0 评论 -
大数据:RPC学习
Remote Procedure CallRPC——远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,RPC跨越了传输层和应用层。RPC使得开发包括网络分布式多程序在内的应用程序更加容易。lRPC采用客户机/服务器模式。请求程序就是一个客户机,...原创 2019-09-16 01:08:43 · 356 阅读 · 0 评论 -
大数据:Hadoop2.x---HDFS介绍
HDFSHadoop建议存储大文件,如果是大量的小文件,会消耗大量内存。同时map任务的数量是由splits来决定的,所以用MapReduce处理大量的小文件时,就会产生过多的map任务线程管理开销将会增加作业时间。处理大量小文件的速度远远小于处理同等大小的大文件的速度。NameNode整个文件系统的管理节点,维护着整个文件系统的文件目录树,文件/目录的元信息和每个文件对应的数据块列...原创 2019-09-15 22:27:54 · 1184 阅读 · 0 评论 -
大数据:Hadoop2.x---HDFS数据读写流程
初始化FileSystem,然后客户端(client)用FileSystem的open()函数打开文件 FileSystem用RPC调用元数据节点,得到文件的数据块信息,对于每一个数据块,元数据节点返回保存数据块的数据节点的地址。 FileSystem返回FSDataInputStream给客户端,用来读取数据,客户端调用stream的read()函数开始读取数据。 DFSInpu...原创 2019-09-16 01:07:31 · 361 阅读 · 0 评论 -
大数据:Java操作HDFS
package cn.itcast.hadoop.hdfs;import java.io.FileInputStream;import java.io.IOException;import java.io.InputStream;import java.io.OutputStream;import java.net.URI;import java.net.URISyntaxExce...原创 2019-09-15 23:13:14 · 159 阅读 · 0 评论 -
大数据:Hadoop:HDFS Shell 常用命令
1.0查看帮助 hadoop fs -help <cmd>1.1上传 hadoop fs -put <linux上文件> <hdfs上的路径>1.2查看文件内容 hadoop fs -cat <hdfs上的路径>1.3查看文件列表 hadoop fs...原创 2019-08-26 21:10:13 · 213 阅读 · 0 评论 -
sqoop:介绍 + 配置 + 基本案例
sqoop安装:安装在一台节点上就可以了。1.上传sqoop2.安装和配置 在添加sqoop到环境变量 将数据库连接驱动拷贝到$SQOOP_HOME/lib里3.使用 第一类:数据库中的数据导入到HDFS上 sqoop import --connect jdbc:mysql://192.168.8.88:3306/itcast --username...原创 2019-08-29 23:59:09 · 175 阅读 · 0 评论