自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(64)
  • 收藏
  • 关注

原创 第三节课 Pandas,Numpy的简单使用

目录1、安装numpy2、numpy的操作3、相关操作4、Pandas数据分析5、绘图6、数据清洗1、安装numpypip install numpy安装jupyter,安装notebook启动jupyter notebook2、numpy的操作创建一个二维表调用包:import numpy as np创建二维表nd = np.array([[1,2],[2,3]])转换数据类型nd1 = nd.astype("float")3

2021-12-15 20:25:49 1825 1

原创 第二节课 python基础

目录1、选择结构2、循环结构3、文件IO4、操作mysql5、日期函数6、函数7、面向对象8、包9、异常处理1、选择结构if、elif、elseif 表达式1:代码1(前面必须是四个空格)代码2(前面必须是四个空格)代码3(前面必须是四个空格)elif 表达式2:代码5(前面必须是四个空格)代码6(前面必须是四个空格)代码7(前面必须是四个空格)..........else:代码8(前面必须是四个空格)代码9

2021-12-15 20:25:13 1542

原创 第一节课 python基础

目录1、python的诞生和发展2、基础语法基本数据类型五大数据类型类型的转换字符串切片:索引:长度:倒转:输出三位小数3、运算算数运算逻辑运算4、数据容器四大容器列表:list元组:typle ()集合:set {}字典:dict{‘’:‘’,“”:“”}1、python的诞生和发展python语言是一种解释性、面向对象、动态数据类型的高级程序设计语言python语言是数据分析师的首选数据分析语言之一2、基

2021-12-15 20:24:20 920

原创 Kettle

目录1、kettle概述2、kettle工程存储方式3、kettle的组成1、kettle概述开源ETL工具,支持数据库、FTP、文件、rest接口、hdfs、hive等平台的灵敏据进行抽取、转换、传输等操作、java编写跨平台,C/S架构,不支持浏览器模式。1、易用性:有可视化设计器进行可视化操作,使用简单2、功能强大:不仅能进行数据传输,能同时进行数据清洗和转换等操作3、支持多种数据源4、部署方便:独立部署,不依赖第三方产品5、使用场景:数据量及增量不大,业务

2021-12-15 20:22:44 2369

原创 Flume

目录1、Flume简介2、flume架构3、flume组件4、Source5、channel6、Sink1、Flume简介实时数据采集日志采集日志.log文件 网络采集flume是一个分布式、可靠、高可用的海量日志采集、聚合和传输的系统支持在日志系统中定制各类数据发送方,用于收集数据。2、flume架构flume运行的核心是Agent,flume以agent为最小的独立运行单位。一个agent就是一个JVM它是一个完整的数据收集工具含有:s

2021-12-15 20:22:09 892

原创 DataX,FlinkX

目录1、Datax的简介2、Datax的使用3、FlinkX的使用1、Datax的简介DataX是阿里巴巴集团内呗广泛使用的离线数据同步工具不同数据源的同步抽象为从源头数据源读取数据的Reader插件,以及向目标端写入数据的Writer插件各种异构数据源之间的高效的数据同步功能2、Datax的使用datax.py xxx.json以json文件做配置'$bizdata'业务日期3、FlinkX的使用flinkx \-mode local \-j

2021-12-08 14:26:44 497

原创 Sqoop

目录1、数据集成工具(采集,同步)2、sqoop3、架构4、sql脚本文件怎么执行注意事项:6、增量到数据1、数据集成工具(采集,同步)离线采集(批量采集)1、Sqoop2、DataX3、Kettle实时采集(增量采集)1、Flume2、Canal3、OGG查看mapreduce的运行日志yarn logs -applicationId application_xxxxxxxx2、sqoopApache的开源软件,主要用在HAD

2021-12-08 14:26:19 1682

原创 HBase参数调优

目录HBase参数调优hbase.regionserver.handler.counthbase.hregion.max.filesizehbase.hregion.majorcompactionhbase.hstore.compaction.minhbase.hstore.compaction.maxhbase.hstore.blockingStoreFileshbase.regionserver.global.memstore.sizehbase.regionse

2021-12-08 14:25:24 691

原创 Hbase 第五节课 hbase的优化

目录1、预分区如何实现:实现步骤:2、参数调优3、Hbase BulkLoading1、预分区默认创建Hbase表时候会自动创建一个region分区,当导入数据的时候,所有的Hbase客户端都向这一个region写数据,直到这个region足够大了才进行切分。 一种可以加快批量写入速度的方法是通过预先创建一些空的regions,这样当数据写入 HBase时,会按照region分区情况,在集群内做数据的负载均衡。如果知道hbase数据表的key的分布情况,就可以在建表的时候

2021-12-08 14:24:09 69

原创 Hbase 第四节课 Phenix的使用

目录Phoenix的使用:1、连接sqlline2、常用命令1、创建表2、显示所有表3、插入数据4、查询数据,支持大部分sql语法5、删除数据6、删除表7、退出命令行phoenix表映射1、视图映射2、表映射3、Phoenix二级索引:Phoenix的使用:1、连接sqllinesqlline.py master,node1,node22、常用命令1、创建表CREATE TABLE IF NOT EXISTS STUDENT

2021-12-08 14:23:37 429

原创 Hbase 第三节课 hbase的过滤

目录Hbase过滤器过滤器的两类参数操作符:常见的六大比较过滤器:专用过滤器:布隆过滤器原理:Hbase过滤器HBase的基本API,包括增、删、改、查等查询一般使用Get或者Scan进行查询Hbase不仅提供了这些简单的查询,而且提供了更加高级的过滤器(Filter)来查询过滤器的两类参数过滤器可以根据列簇、列、版本等更多的条件来对数据进行过滤hbase本身提供三维有序(行键,列,版本有序)这些过滤器可以高效的完成查询过滤的任务,带有过滤器条

2021-12-02 18:46:39 489

原创 Hbase 第二节课 hbase的javaAPI使用

目录Hbase->BigTable一个列族对应一个StoreHBase三维有序javaAPI操作1、数据库(DataBase)2、表Table3、列族(Column Family)4、列修饰符(Column Qualifier)1、创建一个配置文件2、创建连接3、如果需要对表结构操作 则getAdmin,对数据进行操作,则getTable4、创建 testAPI表Hbase->BigTableHbase系统架构一个列族对应一个Sto

2021-12-01 19:11:57 304

原创 Hbase 第一节课 hbase的安装和shell操作

目录HBase:OLTP和OLAP的区别HBase基础:架构HBase的简单操作:重置HBase:HBase shell操作:1、进入HBase shell2、创建表3、查看所有表4、查看表详情5、表修改6、插入数据7、根据rowKey查询某个记录8、查询所有记录9、统计表记录数10、删除11、禁用表12、启用表13、测试表是否存在HBase:No SQL、半结构化、实时查询的分布式数据库OLTP和OLAP的区别

2021-11-29 21:37:23 1493

原创 第四节课 hive的表分层

hive调优优化建表注意事项1、分区,分桶一般按照业务日期进行分区2、一般使用外部表,避免数据误删3、选择适当的文件储存格式及压缩格式4、命名规范5、数据分层,表分离分区裁剪 where过滤,先过滤再join分区分桶,合并小文件左连接的时候,大表再左边,小标再右边order by语句:是全局排列sort by语句:是单reduce排序 只有一个reduce和order bu 没有区别distribute by语句:是分区字段;cluster by语句:

2021-11-29 21:36:16 1482

原创 第三节课 hive的函数操作

目录Window as 使用Hive开窗函数窗口帧:用于从分区中选择指定的多条数据,供窗口函数处理Hive行转列Window as 使用列子:Window w as (partition by clazz order by score desc) ;Hive开窗函数开窗函数一般使用和聚合函数一起row_number:无并列排名用法:select xxx,row_number() over(partition by 分组字段 order by 排序字段 de

2021-11-28 14:16:29 456

原创 第二节课 hive的安装和操作

目录分区:避免全部扫描:添加分区:删除分区:查看分区:插入数据:动态分区:动静结合分桶:创建分桶表:往分桶表里插入数据:分桶加载数据:基本数据类型:日期类型:窗口函数(开窗函数):用户分组中开窗合并函数:分区:避免全部扫描:格式:create external table 表名(字段1 字段类型1,字段2 字段类型2...)paartitioned by (分区字段 字段类型)ROW FORMAT DELIM

2021-11-28 14:15:42 279

原创 第一节课 hive的安装和操作

目录1、数据仓库2、Hive是什么3、HiveQL与SQL的区别4、数据存储格式5、操作客户端6、Hive操作1、建表语句2、加载数据(上传到hive表)1、数据仓库数据仓库中有很多个数据库ETL:对数据的储存、查询和分析存储,在Hadoop中大规模数据的机制。hive定义了简单的类SQL查询语言,HQL也可以处理MapReduce开发者开发的自定义mapper和reducer来处理内建的mapper和reducer无法完成的工作数据仓库 Data

2021-11-28 14:14:25 441

原创 第四节课 hadoop总结

mapreduce优化总结1、通过修改map的切片大小控制map数量(尽量和block大小保持一致)并不是map越多越好,根据集群资源set mapred.max.split.size=2560000002、合并小文件。因为一个文件会至少生成一个map3、避免数据倾斜4、combine操作 map端的预聚合5、mapjoin操作 map小表广播6、适当备份,因为备份多可以本地化生成map任务yarn运行流程1、提交一个mapreduce mr运行需要资源,资源在rm中

2021-11-28 14:13:35 338

原创 第三节课 hadoop的idea操作

目录代码流程及其解释hadoop操作MapReduce的idea操作代码流程及其解释FileSystem 提供文件系统的接口,并且是工厂用于访问文件系统中的文件和其他对象的对象。hadoop配置文件 自动获取hadoop-hdfs的配置文件Configuration 配置文件 set.("dfs.replication","1");设置副本数为1URI 配置网络 “hdfs://master:9000”filesystem.get(uri,conf);hadoop

2021-11-28 14:13:03 506

原创 第二节课 hadoop的深入了解

目录hdfs读写文件的流程1、读文件流程2、写文件流程hdfs读写文件的流程1、读文件流程1、首先调用 fileSystem对象的open方法,其实是一个DistributedFileSystem(客户端)的实例2、DistributedFileSystem通过rpc(namenode getblocklocal元数据信息)获得文件的第一个block的locations,同一block按照副本数会返回多个locations,这些locations按照hadoop拓扑结构排序,

2021-11-28 14:12:32 63

原创 第一节课 hadoop的安装 基本操作

目录Google三篇论文Hadoop组件介绍hdfs架构分析负责数据的分布式存储资源的调度和管理平台集群资源的分配与调度依赖磁盘io的批处理计算模型接收客户端提交的计算任务监控Container中Task的执行情况hadoop特点hadoop的基本操作1、创建目录2、查看文件3、上传文件4、下载文件5、复制6、查看文件内容cat7、移动 mv8、删除文件或者目录 rmr9、文件的永久删除:10、查看文件的大小11、查

2021-11-28 14:11:58 236

原创 3、redis作为缓存,以及持久化机制

目录什么是持久化?Redis为什么需要持久化SAVE命令BGSAVE命令save,bgsave区别默认配置优点缺点AOF写入机制写入磁盘机制重写过程新文件替代旧文件优点:缺点:什么是持久化?将数据从掉电易失的内存存放到能够永久存储的设备上Redis为什么需要持久化基于内存的Redis持久化方式RDB(Redis DB)AOF(AppendOnlyFile)RDB在默认情况下,Redis将数据库快照保存在名字为du

2021-11-28 14:05:40 107

原创 2、 redis的基本操作

目录基本操作设置字符串值设置多个键值的字符串值键不存在时,设置字符串值过期设置多少秒或者毫秒后过期设置在指定Unix时间戳过期删除过期查看剩余生存时间查找健键类型键是否存在键重命名键删除获取值获取多个值返回旧值并设置新值如果键不存在,就创建并赋值字符串长度追加字符串获取子字符串覆盖字符串步长1的增减步长增减位图bitmap设置某一位上的值获取某一位上的值位操作Set集合增加一个或多个命

2021-11-28 14:04:02 379

原创 1、安装redis,及其启动

目录redis是什么键Key取值原则启动Redisredis是什么开源的(BSD协议),使用ANSI C编写(gcc编译),基于内存的且支持持久化(快,数据在内存和硬盘中的相互转换),高性能的Key-Value的Nosql数据库支持数据结构类型丰富, 字符串(strings),散列(hashes),列表(lists),集合(sets),有序集合(sorted set)与范围查询,bitmaps,hyerloglogs和地理空间(geospatial)索引半径查询。用途

2021-11-28 14:00:44 400

原创 5、maven的使用

maven的作用:1、下载包2、项目管理,多人功能开发一个项目java使用mysql的流程1、加载驱动class.forname("com.mysql.jdbc.Driver");2、获取连接Connection conn = DriverManager.getConnection(url,user,password);3、执行sqlString sql = "sql语句";Statement statement = conn.createStatement();

2021-11-27 19:55:06 255

原创 4、mysql的java使用

目录mysql通过shell操作mysqljava操作mysqlmysql通过shell操作mysql#!/bin/shMYSQL="mysql -h192.168.8.88 -uroot -p123456 --default-character-set=utf8"sql="select * from shujia.student where sex='0'"result="$($MYSQL -e "$sql")"echo "$result"java操作mysql

2021-11-27 19:54:34 429

原创 3、mysql表的操作

目录表连接:笛卡尔积:视图:创建视图:create view tmp as select * from student_info where age = 25;查看视图结构:desc tmp;删除视图:drop view tmp;事务和锁:表连接:union:结果合并,同一张表union的结果通常可以使用or完成,可以多张表的查询结果合并,查询结果的列名以第一次sql语句的结果列为准。要求:两次查询的列数量一致即可。建议:查询的列类型也一样:注

2021-11-27 19:51:50 99

原创 2、mysql的基本操作

目录创建表格的注意项:修改表:INSERT语句向表中插入数据查询数据基本select语句日期函数:limit语法使用order by子句排序查询结果创建表格的注意项:not null 字段不允许为空(如果操作时输入该字段为null,就会报错)auto_increment定义为自增的属性,一般用于主键,数值会自动加1primary key关键字用于定义列为主键,可以使用多列来定义主键,列间以逗号分隔。engine设置存储引擎,charset 设置编码

2021-11-27 19:50:34 66

原创 1、mysql的安装

目录什么是数据库?关系型数据库非关系型数据库SQL分类DDL:DML:DCL:DQL:创建、查看、删除数据库:创建数据库:显示数据库语句:显示数据库创建语句:数据库删除语句:修改数据库的编码集:什么是数据库?与普通的数据仓库不同的是,数据库依据数据结构来组织数据,因为数据结构的存在,所以看到的数据时条理化的数据库和普通文件系统的区别在与:数据库拥有数据结构,能都快速查找对应的数据常说的数据库,其实就是数据库管理系统:数据库管理系

2021-11-27 19:49:21 194

原创 Shell 日期获取及其定时器

目录获取当前日期时间:格式化日期时间:加减日期时间:重定向:执行命令的结果写入到文件定时器:获取当前日期时间:ate +"%Y-%m-%d %H:%M:%S"格式化日期时间:date -d todat +"%Y-%m-%d %H:%M:%S"加减日期时间:date +%Y%m%d //显示前天年月日date +%Y%m%d --date="+1 day" //显示后一天的日期date +%Y%m%d --date="-1 day" //显示前一天的日期

2021-11-27 19:48:17 2316

原创 Shell语句操作

目录if语句:格式1:格式2:格式3:elif 判断条件结果集:通过下标获取数据获取长度:read:键盘录入函数if语句:格式1:if 判断条件then判断为true执行的代码fi格式2:if 判断条件then判断为true执行的代码else判断为false执行的代码fi格式3:if 判断条件then判断为true执行的代码elif 判断条件then判断为true执行的代码。。。

2021-11-27 19:47:08 120

原创 Shell基本操作

Shell操作linux的桥梁创建:后缀为.sh的文件编写:头部注释为#!/bin/sh或者#!/bin/bash (注释可以不写,建议写)运行:1、通过sh命令执行:sh helloworld.sh2、通过bash命令执行:bash helloworld.sh3、通过把文件修改为可执行的文件然后通过./文件命令.sh来执行./helloworld.sh(必须在当前目录下)变量(动态数据类型,没有数据类型的限制,并且必须初始化)定义和初始化格式:变量名称=值x=1

2021-11-27 19:43:34 501

原创 虚拟机的集成

目录永久修改主机名:ip修改然后重启网络:servic network restart加上映射关系:1、创建密钥2、密钥分发scp:文件分发查看开机默认启动模式:修改开机为命令行模式:永久修改主机名:hostnamectl set-hostname node1或node2ip修改vim /etc/sysconfig/network-scripts/ifcfg-ens33然后重启网络:servic network restart加上映射关系:

2021-11-27 19:41:20 343

原创 linux用户设置

用户和用户组用户在 /etc/passwd用户组在 /etc/group/中注意:在创建用户时,系统会默认生成一个用户组(组名和用户名一致)查看用户时:cy:x:1000:1000:cy:/home/cy:/bin/bashcy:用户名x:加密的密码1000:用户编号1000:组编号cy:用户全名称/home/cy :所在位置/bin/bash:可执行命令useradd:添加用户格式: useradd 用户名passwd:修改密码格式: passw

2021-11-27 19:39:10 4361 1

原创 linux基础命令

目录linux网络配置:linux目录结构常用命令man:帮组命令查询当前命令的使用方式(打开当前命令的帮助手册)cd:切换目录ls:查看mkdir:创建目录rm:删除cp:复制mv:剪切,移动编辑模式vim:如何进行行首行尾,开头末尾切换linux网络配置:ip地址:保证和DOS窗口中VMnet8IPv4前三部分保持一致,最后一部分在11-254之间即可子网掩码:255.255.255.0网关:保证和DOS窗口中VMnet8IPv4前三部

2021-11-26 21:04:11 524

原创 JAVA总结

基础知识:if for whileIO* 集合* 网络编程* 多线程**1、关键字 2、标识符 3、注释 4、常量 5、数据类型 基本数据类型(面试题) 引用数据类型 6、操作符三目运算符 %7、if switch for while do...while 排序算法:冒泡排序,快速排序,堆排序 查找算法:二分查找 8、return continue break 9、方法,重载与重写的区别 10、数组是存储同一种数据类型多个元素的集合。也可以看成是一个容器。 下标索引是从0开始的 11、面向对象

2021-11-26 21:02:09 478

原创 第 27 节课 反射 代理 正则表达式

目录反射配置文件:反射:动态代理:正则表达式原义字符:元字符:字符类:元字符:范围类元字符: 预定义类边界字符:量词:分组:反射配置文件:配置里面的内容基本上都是 键--值 成对成对存在的反射:通过配置文件运行类中的方法classNamemethoNamejava中提供了一个配置文件类PropertiespublicStringgetProperty(Stringkey)使用此属性列表中指定的键搜索属性。 如果在此...

2021-11-26 21:01:40 61

原创 第 26 节课 网络编程 映射

目录SocketSocket套接字:UDP协议UDP协议发送数据UDP接收端接收数据:多次运行接收端程序:TCP协议TCP协议传输发送数据端类的加载器和反射类的加载class类:获取class文件中的构造方法暴力访问SocketSocket套接字:网络上具有唯一标识的IP地址和端口号组合在一起才能构成唯一能识别标识符套接字。Socket原理机制:通信的两端都有Socket。网络通信其实就算Socket间的通信。数据在两个So

2021-11-26 21:00:47 165

原创 第 25 节课 时间定时器 编程模式 网络编程

目录网络编程的概述计算机网络:网络编程:网络通信三要素:三个DOS命令三个编程模式工厂方法模式定时器是一个应用十分广泛的线程工具可用于调度多个定时任务以后台线程的方式执行在java中,可以通过Timer和TimerTask类来实现定义调度的功能Timer() 创建一个新的计时器。void schedule(TimerTask task,long delay) 在指定的延迟之后安排指定的任务执行。void schedule(TimerTask task,lo

2021-11-26 20:59:37 237

原创 第 24 节课 多线程

目录同步的好处:同步的弊端:死锁问题:如何添加等待唤醒机制呢?如何实现线程池的代码呢?总结多线程:线程池:同步的好处:解决了多线程的安全问题同步的弊端:加入了同步之后,就相当于加了一把锁,这样每次进入同步代码块之前都会判断一下,无形之中,降低了程序的运行效率1、同步代码块的锁对象是谁?任意对象2、同步方法的时候,锁对象又是谁呢?this3、如果是静态同步方法,锁对象是该静态同步方法所属那个类的字节码文件,字节码文件也属于一种对象。我

2021-11-26 20:58:34 69

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除