JDK1.8.0-CSDN博客

原创基于阿里云dataworks邮件发送附带多sheet的xlsx文件

基于阿里云dataworks邮件发送附带多sheet的xlsx文件，利用pandas和yagmail模块

2022-08-12 11:42:53 670

原创 Elasticsearch分享

一、Elasticsearch是什么？Elaticsearch，简称为ES，是一个RESTful风格的高扩展的分布式全文搜索和分析引擎，它允许快速，近实时地存储，搜索和分析大量数据，例如博客网站用户可以在里面写一些文章定义一些关键字，我们根据关键字去快速搜索文章1.ES基础概念介绍1 索引：一个索引就是一个拥有几份相似特征的文档的集合，跟我们熟悉的关系型数据库比较的话一个索引就相当于一个数据库。2.文档：是一个可以被索引的基础信息单元。相当于数据库表中的一条数据。3.节点：集群的一个服务器就是一

2022-01-04 00:27:58 1204

原创数据仓库基础知识

1.什么是数据仓库？数据仓库，data warehouse，简写为dw。数据仓库顾名思义，是一个很大的数据存储集合，出于企业的分析性报告和决策支持目的而创建，对多样的业务数据进行筛选与整合。它为企业提供了一定的BI（商业智能）能力，指导业务流程改进，监视时间、成本、质量以及控制基于业务数据满足业务需求，不仅是存储，更侧重决策和管理特点：面向主题、集成、随时间变化、非易失（不建议删除更新操作）组成：元数据，开发编码，数据模型，指标规范，血缘关系，2.为什么要建数据仓库业务痛点：数据资产模糊、数据

2020-11-27 16:43:31 553

原创 MapReduce原理

mr简介MapReduce是一个分布式运算程序的编程框架，是用户开发“基于hadoop的数据分析应用的”的核心框架；Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个hadoop集群上为什么要用MapReduce海量数据在单机上处理因为硬件资源限制，无法胜任而一旦将单机版程序扩展到集群来分布式运行，将极大增加程序的复杂度和开发难度引入mapreduce框架后，开发人员可以将绝大部分工作集中在业务逻辑开发上，而将分布式计算中的复杂性交由

2020-11-07 20:50:46 445

原创索引的优缺点，如何建立

索引的优缺点1.1 索引特点（加快检索速度，提高查询性能）：第一，通过创建唯一性索引，可以保证数据库表中每一行数据的唯一性。第二，可以大大加快数据的检索速度，这也是创建索引的最主要的原因。第三，可以加速表和表之间的连接，特别是在实现数据的参考完整性方面特别有意义。第四，在使用分组和排序子句进行数据检索时，同样可以显著减少查询中分组和排序的时间。第五，通过使用索引，可以在查询的过程中，使用优化隐藏器，提高系统的性能。1.2 索引不足：第一，创建索引和维护索引要耗费时间，这种时间随着数据量的增加

2020-11-07 15:40:57 778

原创 hive事务

一、事务在我们使用的hive中一般他是不会支持事务的，因为hive的存储基于hdfs，hdfs他每个数据都是一块，我们都成为一次写入多次读取，说明hadoop不希望你修改，或者删除数据的一部分，但有些同志没，还是想体验一下删除的快感，那么我们介绍一下关系型数据库的事务:一、事务的基本要素（ACID）1、原子性(Atomicity)：事务中的全部操作在数据库中是不可分割的，要么全部完成，要么全部不执行。2、一致性(Consistency)：几个并行执行的事务，其执行结果必须与按某一顺序串行执行的结果

2020-11-06 22:58:40 449

原创 hive的介绍及与传统关系型数据库（mysql)的区别

hive的介绍什么是hive：Hive是基于hadoop的一个数据仓库工具，实质就是一款基于hdfs的MapReduce计算框架，对存储在HDFS中的数据进行分析和管理。hive的工作方式：把存放在hive中的数据都抽象成一张二维表格，提供了一个类似于sql语句的操作方式，这些sql语句最终被hive的底层翻译成为MapReduce程序，最终在hadoop集群上运行，结果也会输出在hdfs之中。（必须是结构化的数据）。在存储的时候hive对数据不做校验，在读取的时候校验。hive的的优点：极大的简化了

2020-11-06 22:34:07 3475

原创 hive的存储结构及表的分类

一、hive的存储结构1.数据仓库：在 HDFS 中表现为${hive.metastore.warehouse.dir}目录下一个文件夹2.表：hive的表分为内部表、外部表、分区表、分桶表，表在hdfs中的表现形式也是目录，但是不同的表之间的表现形式不同3.视图：物化，hive是不会进行物化，相当于给一个sql语句建立了一个快捷方式，保存的是一个视图中的sql语句。只读，基于基表创建。4.数据文件：表中的真实数据二、hive表的分类内部表（Managed table），数据在Hive内部，即

2020-11-06 22:02:09 950

原创 hive的存储格式与存储结构

1、hive的存储格式hive的存储格式分为4种，分别是TEXTFILE、SEQUENCEFILE、RCFILE、ORCFILE(0.11以后出现)其中TEXTFILE为默认格式，建表时不指定默认为这个格式，导入数据时会直接把数据文件拷贝到hdfs上不进行处理；SEQUENCEFILE，RCFILE，ORCFILE格式的表不能直接从本地文件导入数据，数据要先导入到textfile格式的表中，然后再从表中用insert导入SequenceFile,RCFile,ORCFile表中。...

2020-11-06 21:27:49 1055

原创使用帮助

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Mar

2020-11-06 21:21:40 146