自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 资源 (3)
  • 收藏
  • 关注

转载 Python从入门到入土

Python从入门到入土简介Python 是一种通用编程语言,其在科学计算和机器学习领域具有广泛的应用。如果我们打算利用 Python 来执行机器学习,那么对 Python 有一些基本的了解就是至关重要的。本 Python 入门系列体验就是为这样的初学者精心准备的。1 变量、运算符与数据类型1. 注释在 Python 中,# 表示注释,作用于整行。【例子】单行注释# 这是一个注释print("Hello world")# Hello world‘’’ ‘’’ 或者 “”" “”" 表

2022-04-19 23:10:01 348 1

原创 Spark介绍与安装

Spark介绍与安装Spark概述什么是SparkSpark内置模块Spark特点Spark运行模式Spark安装地址重要角色Driver(驱动器)Executor(执行器)Local模式Local模式安装使用Standalone模式概述安装使用JobHistoryServer配置HA配置Yarn模式(重点)概述安装使用日志查看Mesos模式(了解)几种模式对比案例实操编写WordCount程序本地调试Spark概述什么是SparkSpark内置模块Spark Core:实现了Spark的基本功

2021-01-08 12:53:51 212

原创 HBase

HBaseHBase简介什么是HBaseHbase特点HBase架构HBase中的角色HMasterHMasterRegionServer其他组件HBase简介什么是HBaseHBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase的目标是存储并处理大型的数据,更具体来说是仅需使用普通的硬件配置,就能够处理由成千上万的行和列所组成的大型数据。HBase是Google Bigtable的开源实现,但是也有很

2021-01-08 12:33:41 6383

转载 IDEA快捷键

IDEA快捷键CtrlAltShiftCtrl + AltCtrl + ShiftAlt + ShiftCtrl + Shift + Alt其他Ctrl快捷键介绍Ctrl + F在当前文件进行文本查找 (必备)Ctrl + R在当前文件进行文本替换 (必备)Ctrl + Z撤销 (必备)Ctrl + Y删除光标所在行 或 删除选中的行 (必备)Ctrl + X剪切光标所在行 或 剪切选择内容Ctrl + C复制光标所在行 或 复制选择内容

2021-01-02 17:56:31 90

原创 Git命令

Git命令1 环境配置2 获取Git仓库2.1在本地初始化一个Git仓库2.2从远程仓库克隆3 工作目录、暂存区以及版本库概念4 Git工作目录下文件的两种状态5 本地仓库操作6 远程仓库操作6.1查看远程仓库6.2 添加远程仓库6.3 从远程仓库克隆6.4 移除无效的远程仓库6.5 从远程仓库中抓取与拉取6.6 推送到远程仓库7 Git分支7.1 查看分支7.2 创建分支7.3 切换分支7.4 推送至远程仓库分支7.5 合并分支7.5 删除分支1 环境配置当安装Git后首先要做的事情是设置用户名称和e

2021-01-02 16:59:43 148

原创 Kafka

KafkaKafka概述定义消息队列(Message Queue)传统消息队列的应用场景消息队列的两种模式Kafka基础架构Kafka快速入门安装部署集群规划jar包下载集群部署Kafka命令行操作Kafka架构深入Kafka工作流程及文件存储机制Kafka生产者分区策略数据可靠性保证Exactly Once语义Kafka消费者消费方式分区分配策略offset的维护Kafka 高效读写数据Zookeeper在Kafka中的作用Kafka APIProducer API消息发送流程异步发送API同步发送API

2020-12-30 23:08:37 140

原创 Flume

Flume概述Flume的定义Flume的优点Flume组成架构AgentSourceChannelSinkEventFlume拓扑结构Flume Agent内部原理重点知识你是如何实现Flume数据传输的监控的?Flume的Source,Sink,Channel的作用?你们Source是什么类型?Flume的Channel SelectorsFlume参数调优Flume的事务机制Flume采集数据会丢失吗?概述Flume的定义Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志

2020-12-28 00:23:46 161

原创 Hive操作(DQL)

Hive操作查询基本查询(Select…From)全表和特定列查询列别名算术运算符常用函数Limit语句Where语句比较运算符(Between/In/ Is Null)Like和RLike逻辑运算符(And/Or/Not)分组Group By语句Having语句Join语句等值Join表的别名内连接左外连接右外连接满外连接多表连接笛卡尔积连接谓词中不支持or排序全局排序(Order By)按照别名排序多个列排序每个MapReduce内部排序(Sort By)分区排序(Distribute By)Clust

2020-12-25 19:18:18 266

原创 Hive操作(DDL,DML)

Hive操作Hive数据类型基本数据类型集合数据类型类型转化DDL数据定义创建数据库查询数据库显示数据库查看数据库详情切换当前数据库修改数据库删除数据库创建表管理表外部表管理表与外部表的互相转换分区表分区表基本操作分区表注意事项修改表重命名表增加、修改和删除表分区增加/修改/替换列信息删除表DML数据操作数据导入向表中装载数据(Load)通过查询语句向表中插入数据(Insert)查询语句中创建表并加载数据(As Select)创建表时通过Location指定加载数据路径Import数据到指定Hive表中数据

2020-12-25 17:38:11 153

原创 Hive架构与调优

Hive架构与调优什么是HiveHive的优缺点优点缺点Hive架构原理Hive和数据库比较查询语言数据存储位置数据更新执行执行延迟可扩展性数据规模调优Fetch抓取本地模式表的优化小表、大表Join大表Join大表MapJoin(小表join大表)Group ByCount(Distinct) 去重统计笛卡尔积行列过滤动态分区调整分桶分区合理设置Map及Reduce数复杂文件增加Map数小文件进行合并合理设置Reduce数并行执行严格模式JVM重用推测执行压缩执行计划(Explain)什么是HiveH

2020-12-25 00:46:56 271

原创 Hive安装

这Hive安装Hive安装Hive安装地址Hive安装部署将本地文件导入Hive案例MySql安装安装包准备安装MySql服务器安装MySql客户端Hive元数据配置到MySql驱动拷贝配置Metastore到MySql多窗口启动Hive测试HiveJDBC访问启动hiveserver2服务启动beeline连接hiveserver2Hive常用交互命令Hive其他命令操作Hive常见属性配置Hive数据仓库位置配置查询后信息显示配置Hive运行日志信息配置参数配置方式Hive安装Hive安装地址1.

2020-12-25 00:25:06 233

原创 Hadoop优化

Hadoop企业优化MapReduce 跑的慢的原因MapReduce优化方法数据输入Map阶段Reduce阶段I/O传输数据倾斜问题常用的调优参数HDFS小文件优化方法HDFS小文件优化方法HDFS小文件解决方案MapReduce 跑的慢的原因MapReduce优化方法MapReduce优化方法主要从六个方面考虑:数据输入、Map阶段、Reduce阶段、IO传输、数据倾斜问题和常用的调优参数。数据输入Map阶段Reduce阶段I/O传输数据倾斜问题常用的调优参数1.资源

2020-12-23 23:16:39 156 1

原创 Hadoop之Yarn

Yarn资源调度器Yarn基本架构Yarn工作机制三级目录Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。Yarn基本架构YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成.Yarn工作机制工作机制详解(1)MR程序提交到客户端所在的节点。(2)YarnRunner向ResourceManage

2020-12-23 23:06:13 112

原创 Hadoop之MapReduces(OutputFormat)

OutputFormatOutputFormat接口实现类自定义OutputFormatJoin多种应用Map JoinReduce Join计数器应用Hadoop数据压缩概述策略与原则MR支持的压缩编码Gzip压缩Bzip2压缩Lzo压缩Snappy压缩压缩位置选择OutputFormat接口实现类自定义OutputFormatJoin多种应用Map Join1.使用场景Map Join适用于一张表十分小、一张表很大的场景。2.优点思考:在Reduce端处理过多的表,非常容易产生数据

2020-12-08 22:58:30 156

原创 Hadoop之HA(High Available)

High AvailableHA概述HDFS-HA工作机制HDFS-HA工作要点HDFS-HA自动故障转移工作机制HA概述1)所谓HA(High Available),即高可用(7*24小时不中断服务)。2)实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制:HDFS的HA和YARN的HA。3)Hadoop2.0之前,在HDFS集群中NameNode存在单点故障(SPOF)。4)NameNode主要在以下两个方面影响HDFS集群NameNode机器发生意外,如宕机,集群

2020-12-08 22:42:48 251

原创 Zookeeper

Zookeeper1.1 概述1.2 特点1.3 数据结构1.4 应用场景统一命名服务统一配置服务统一集群管理服务动态上下线软负载均衡Zookeeper安装2.1 本地模式安装部署Zookeeper实战(重点)Zookeeper内部原理节点类型Stat结构体监听器原理(重点)选举机制(重点)写数据流程重要知识点1.1 概述Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。1.2 特点1.3 数据结构1.4 应用场景提供的服务包括:统一命名服务、统一配置管理

2020-12-07 15:48:18 95

原创 Hadoop之MapReduces(Shuffle机制)

ShuffleShuffle机制Partition分区Partition分区实际操作排序概述排序分类自定义排序WritableComparableCombiner合并Combiner实操案例实操-方案一案例实操-方案二MapTask工作机制溢写阶段详情ReduceTask工作机制Shuffle机制1).Collect阶段:将MapTask的结果输出到默认大小为100M的环形缓冲区,保存的是key/value序列化数据,Partition分区信息等。2).Spill 阶段:当内存中的数据量达到一定的阀

2020-12-05 16:44:18 164

原创 Hadoop之MapReduces(InputFormat阶段)

Hadoop之MapReducesMapReduceMapReduce核心编程思想MapReduce进程MapReduce框架原理MapReduce执行流程切片与MapTask并行度决定机制MapReduceMapReduce核心编程思想分布式的运算程序往往需要分成至少2个阶段。1)第一个阶段的MapTask并发实例,完全并行运行,互不相干。2)第二个阶段的ReduceTask并发实例互不相干,但是他们的数据依赖于上一个阶段的所有MapTask并发实例的输出。3)MapReduce编程模型只能

2020-12-04 21:07:22 199

原创 Hadoop之HDFS

Hadoop架构HDFS架构NameNode(nn)DataNode(dn)Secondary NodeName(2nn)如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入Hadoop由四部分组成:MapReduce(计算),Yarn(资源调度),HDFS(数据存储),Co

2020-12-03 20:20:27 137

pyproj-2.4.0-cp37-cp37m-win_amd64.whl

一种用来处理地理数据的python文件,需要自己手动安装

2019-10-21

GDAL-3.0.1-cp37-cp37m-win_amd64.whl

python中的一个模块,该模块被用来处理地理信息数据,需要自己手动安装

2019-10-21

Fiona-1.8.6-cp37-cp37m-win_amd64.whl

在python中地理信息处理所需要的一种配套包,需要自己手动安装。

2019-10-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除