- 博客(140)
- 资源 (16)
- 收藏
- 关注
原创 【个人笔记】一起入门OLAP多维数据分析
OLAP(on-Line Analysis Processing)是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。OLAP的核心概念是“维”(dimension),维是人们观察客观世界的角度,是一种高层次的类型划分。
2024-02-21 16:15:24 457
原创 【个人笔记】Presto实现原理
Presto是一个开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节。Presto的设计和编写完全是为了解决像Facebook这样规模的商业数据仓库的交互式分析和处理速度的问题。同时,Presto支持多种数据源,最新的版本已支持Apache Accumulo,HDFS,Redis,Postgresql,MySQL等,支持多数据源JOIN查询。
2024-02-21 16:04:49 271
原创 【个人笔记】ClickHouse 查询优化
ClickHouse是OLAP(Online analytical processing)数据库,以速度见长;ClickHouse为什么能这么快?有两点原因:架构优越、关注底层细节;但是,数据库设计再优越也拯救不了错误的使用方式,本文以MergeTree引擎家族为例讲解如何对查询优化
2024-01-16 16:48:04 583
原创 【个人笔记】由浅入深分析 ClickHouse
ClickHouse是一个面向联机分析处理(OLAP)的开源的面向列式存储的DBMS,简称CK。- 由俄罗斯第一大搜索引擎Yandex(俄罗斯版百度搜索)旨在提升网页点击日志分析性能 替换原来的MySQL引擎。- 2016.6.15开源,性能远超同期竞品- Github 19K+ stars, 社区非常活跃 国内各大公司广泛使用 (https://db-engines.com/en/ranking)- RoadMap 逐渐转向通用分析性数据库 https://github.com/ClickHo
2024-01-16 16:30:07 402
原创 个人笔记:Flink 全面深入研究(一文就够了)
大数据计算分为离线计算和实时计算,其中离线计算就是我们通常说的批计算,代表技术是Hadoop MapReduce、Hive等;实时计算也被称作流计算,代表技术是Storm、Spark Streaming、Flink等。本文系统地介绍了流式计算的相关知识,并着重介绍了Flink的实现原理细节,便于大家快速地理解和掌握流式计算,并基于Flink完成业务开发。
2024-01-11 10:12:32 517
原创 Spark避坑系列(三)(Spark Core-RDD 依赖关系&持久化&共享变量)
该篇章主要介绍spark的编程核心RDD的其他概念,依赖关系,持久化,广播变量,累加器等
2024-01-11 09:43:16 490
原创 Spark避坑系列二(Spark Core-RDD编程)
RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,代表一个不可变、可分区、里面的元素可并行计算的集合。
2024-01-09 08:42:01 1034
原创 Spark避坑系列一(基础知识)
Spark作为大数据领域离线计算的王者,在分布式数据处理计算领域有着极高的处理效率,而Python作为Spark支持的开发的重要语言之一,特别对各类机器学习算法的支持,使得有着极高的使用率,本系列文章将通过介绍Spark的基础使用,带大伙入坑Spark
2024-01-09 08:29:00 896
原创 个人笔记:分布式大数据技术原理(二)构建在 Hadoop 框架之上的 Hive 与 Impala
有了 MapReduce,Tez 和 Spark 之后,程序员发现,MapReduce 的程序写起来真麻烦。他们希望简化这个过程。这就好比你有了汇编语言,虽然你几乎什么都能干了,但是你还是觉得繁琐。你希望有个更高层更抽象的语言层来描述算法和数据处理流程。于是就有了 Pig 和 Hive。Pig 是接近脚本方式去描述 MapReduce,Hive 则用的是 SQL
2024-01-06 18:14:59 1381
原创 个人笔记:分布式大数据技术原理(一)Hadoop 框架
Apache Hadoop 软件库是一个框架,它允许使用简单的编程模型,实现跨计算机集群的大型数据集的分布式处理。它最初的设计目的是为了检测和处理应用程序层的故障,从单个机器扩展到数千台机器(这些机器可以是廉价的),每个机器提供本地计算和存储,而不是依靠硬件提供高可靠性。
2024-01-06 17:57:06 1410
原创 LangChain基础知识框架
LangChain是一个强大的框架,旨在帮助开发人员使用语言模型构建端到端的应用程序,它提供了一套工具、组件和接口,可简化创建由大型语言模型 (LLM) 和聊天模型提供支持的应用程序的过程。
2023-12-20 17:09:06 980
原创 浅谈MapReduce
从上述的信息来看,MapReduce主要的优点有1.易于编程,用户只需要自定义map和reduce函数即可。2.具有良好的扩展性,可以通过增加worker的数量来扩展计算能力。3.具有一定的容灾能力,master可以通过定期写入一些持久化信息进行进度的备份,保证master挂了之后可以读取这些信息恢复;而worker挂了的话,它负责的任务可以由master重新调度给其他worker进行作业。4.适合PB级别以上大数据的离线处理。
2023-12-15 14:33:16 1047
原创 Python语言学习笔记之十二(FastAPI)
FastAPl是一个现代、快速(高性能)的Python web框架,用于构建API它具有简洁性、高效性和友好界面等特点广泛用于电子商务、旅游预订和社交媒体等场景。FastAPl的实现原理包括代码架构、请求流程和响应机制等方面。它具有高效的性能和简洁的代码风格,同时需要一定的学习曲线和完善的文档,未来,FastAPI可能会更加智能化灵活和安全。作为一个新兴的web框架,FastAPl必将在构建API方面发挥越来越重要的作用。
2023-12-15 12:00:33 1026
原创 Python语言学习笔记之十一(DotEnv)
Python-dotenv提供了一种简单的方式来管理环境变量,使得Python应用程序可以轻松地访问这些变量。通过使用Python-dotenv,可以更加安全地保护敏感信息,并且方便易用,支持多种变量格式,在不同的部署阶段中使用不同的变量,而无需修改代码本身,是一个很好的实践。总体来说,Python-dotenv是一个非常有用的工具,可以使得Python项目变得更加安全和方便。
2023-12-15 11:53:58 2748
原创 Python语言学习笔记之十(字符串处理)
以实现字符串的分割、替换、格式化、大小写转换,Python字符串处理是指对Python中的字符串对象进行各种操作等。
2023-12-15 11:50:16 542
原创 Python语言学习笔记之九(爬虫)
通俗的讲:就是模拟浏览器抓取数据,科学的讲:通过一定的规则,使用程序对互联网相关数据解析并存储首先需要提取URL,根据URL请求数据,服务器反馈对应的List,对获取的数据进行解析、封装处理,并把数据保存在本地存储设备上。
2023-12-14 11:37:58 1623
原创 Python语言学习笔记之八(文件IO)
本课程对于有其它语言基础的开发人员可以参考和学习,同时也是记录下来,为个人学习使用,文档中有此不当之处,请谅解。
2023-12-14 11:31:20 461
原创 Hive 浅析
Hive是一个简单的LUA沙盒,除了基本的LUA解释器的功能以外,还提供了诸如热加载等功能。了解HIVE的工作原理有利于了解Lua虚拟机的底层实现机理。本文从是什么-怎么用-为什么三个维度介绍HIVE。
2023-12-08 17:31:23 1206
原创 PipeCone向量数据库
Pinecone 是一个高效、快速、实时的向量数据库,可以应用于多种领域。它通过使用 GPU 和分布式计算来加速查询处理,并提供实时更新和动态扩展能力。Pinecone 提供了多种语言的 SDK,并集成了多种相似性度量方法,方便用户集成到自己的应用程序中。
2023-12-08 14:23:46 618
原创 什么是数据架构
本文章对于有准备或者已进入数据治理、大数据行业的从业人员、准备考试DAMA认证的人员、准备学习大数据、数据治理的在校学生可以参考和学习,本文章是根据个人的知识能力,结合在工作中的实践经验,进行梳理总结,记录下来,文档中有不当之处,请谅解。
2023-12-07 14:36:51 1462
原创 Python语言学习笔记之七(JOSN应用)
本课程对于有其它语言基础的开发人员可以参考和学习,同时也是记录下来,为个人学习使用,文档中有此不当之处,请谅解。
2023-11-30 09:32:02 1025
原创 Python语言学习笔记之六(程序调试及异常处理)
本课程对于有其它语言基础的开发人员可以参考和学习,同时也是记录下来,为个人学习使用,文档中有此不当之处,请谅解。
2023-11-30 09:04:24 1071
原创 Python语言学习笔记之五(Python代码注解)
本课程对于有其它语言基础的开发人员可以参考和学习,同时也是记录下来,为个人学习使用,文档中有此不当之处,请谅解。注解与注释是不一样的,注解有更广泛的应用;通过注解与注释都能提高代码的可读性和规范性;注释是针对代码进行说明;
2023-11-28 09:16:10 645
原创 Python语言学习笔记之四(Python文档化)
本课程对于有其它语言基础的开发人员可以参考和学习,同时也是记录下来,为个人学习使用,文档中有此不当之处,请谅解。Python文档化是指在Python代码中添加注释和文档字符串,以提供有关代码的详细信息和说明。文档的内容可以包括函数、模块、类、方法等的说明,参数和返回值的描述,以及示例代码等。场景一:在开发过程中,编写良好的文档可以促进团队合作和代码维护。开发者可以更好地理解彼此的代码,更快地找到问题和错误,以及更有效地进行代码修改和维护。
2023-11-28 09:06:41 481
原创 Python语言学习笔记之三(字符编码)
字符编码通常将字符集中的每个字符映射为一个或多个字节(binary digits),这些字节可以被计算机理解和操作,以实现文本的存储、传输和处理。ISO-8859字符编码标准,定义了不同标准字符集的编码规则,用于将字符编码为二进制格式,以便在计算机系统中使用,ISO-8859是为了解决ASCII编码无法表示多种语言和特殊字符的问题而设计的,ISO-8859编码在文本传输和网页设计中得到了广泛应用,在邮件传输中,它通常用于SMTP协议和POP3协议以支持多种语言和特殊字符的传输。
2023-11-27 10:44:38 1030
原创 Python语言学习笔记之二(基础语法)
三引号字符串:使用三个引号(单引号或双引号) 括起来的字符串,可以包含多行文本,应用场景 :三引号字符串可以用来表示包含多行文本的字符串,当字符串中包含引号时,为了避免将引号视为转义字符可以使用三引号字符串.三引号字符串也可以用来表示文档字符串.Unicode字符串通常用于表示包含非ASCII字符的字符串,比如包含中文字符或特殊符号的文本,在Python中,Unicode字符串通常以u或u"作为前缀,Unicode字符串表示的是字符本身,而不是它们的编码形式。Unicode字符串和字节串。
2023-11-27 10:35:35 489
原创 术语解释 -ceph、Spice、VNC、Quorum机制
1 存储相关概念1.1 ceph概念ceph是基于C++语言开发的统一的分布式存储系统 。具体而言,“统一的”意味着Ceph可以一套存储系统同时提供对象存储、块存储和文件系统存储三种功能,以便在满足不同应用需求的前提下简化部署和 运维。而“分布式的”在Ceph系统中则意味着真正的无中心结构和没有理论上限的系统规模可扩展性。1.1.1 为什么关注它首先,Ceph本身确实具有较为突出的优势。...
2020-02-03 09:54:26 1217
原创 OpenStack 命令行快速查表
1 认证 (keystone)列出所有的用户$ openstack user list列出认证服务目录$ openstack catalog list2 镜像(glance)列出您可以访问的镜像$ openstack image list删除指定的镜像$ openstack image delete IMAGE描述一个指定的镜像$ openstack image show I...
2020-02-03 09:52:10 1205
原创 Mysql主从备份镜像构建及上传
构建镜像过程1. Master镜像构建1. 下载并解压官网镜像文件# wget https://codeload.github.com/docker-library/mysql/zip/master# unzip master# mkdir /home/lipuan/mysqlDockerFile# cp -Rf mysql-master/5.7/Dockerfile /home/li...
2019-05-23 17:43:38 521
原创 网络中转工具 NAT-Rinted安装及应用
在工作中使用了种NAT工具,我发现在Linux下使用Rinted工具非常便捷好用,先把安装步骤简单写一下,方便记忆。安装步骤:1. 下载、解压、安装[root@zhenyunode zhenyutest]# cd ~/zhenyutest/[root@zhenyunode zhenyutest]# wget http://www.boutell.com/rinetd/http/rinetd...
2019-05-23 16:19:52 2132
原创 ansible概念、架构及简单应用
1. 运维主要工作及工具os 安装主要使用的工具:PXE 和Cobbler这两个工具都是使用比较多,其中Cobbler可以实现多个台机子,差异化安装和部署系统配置工具主要工具有:cfengine、chef、puppet部署工具主要工具有:capistrano、fabric2. ansible工具ansible工具是一个近年来比较流行的工具,它主要融合了多个工具的优...
2019-04-14 14:51:30 526
原创 linux下查看CPU的总核数以及逻辑核数
# 总核数 = 物理CPU个数 X 每颗物理CPU的核数# 总逻辑CPU数 = 物理CPU个数 X 每颗物理CPU的核数 X 超线程数# 查看物理CPU个数cat /proc/cpuinfo| grep "physical id"| sort| uniq| wc -l# 查看每个物理CPU中core的个数(即核数)cat /proc/cpuinfo| grep "cpu cores...
2019-03-06 17:55:15 1077
原创 Linux基本知识学习之一
1 终端物理终端:就是终端设备虚拟终端:就是在物理终端通过虚拟方式实现的终端,如操作系统模拟终端:图形界面下打开命令行接口,基于SSH协议或telnet协议等远程打开界面查看当前终端命令:tty如下图:1.1 交互式接口交互式接口:启动终端后,在终端设备附加一个交互式应用程序,主要有以下类型:GUI:X protocol ,window manager, desktopCLI...
2019-01-20 09:34:55 311
原创 HAproxy代理概念及理解
实例:其中Check就是执行心跳检查path_beg:是路径的前缀是什么path_end:是路径的后缀是什么注意:一个Listen是由Frontend和Backend这两个绑定在一起使用的。配置说明:配置实例:HAProxy日志记录设置:有两种方式:采用日志服务记录日志,需要在日志服务中设置自己直接设置日志日志记录事例:...
2019-01-20 09:18:10 993
原创 ansible概念及使用
1. ansible概念2. ansible安装2.1 yum安装通过Yum安装命令:yum install ansible -y通过yum卸载命令:yum -y remove ansible通过命令:rpm -ql ansible | sed -n ‘1,20p’ 能够查看前面20行的列表,如下图:2.2 修改Hosts文件通过切换目录,查看/etc/ansible/hosts...
2019-01-12 23:19:25 729
原创 linux下统计当前文件夹的文件个数与目录数
统计当前文件夹下文件的个数:ls -l |grep “^-”|wc -l统计当前文件夹下目录的个数:ls -l |grep “^d”|wc -l统计当前文件夹下文件的个数,包括子文件夹里的 :ls -lR|grep “^-”|wc -l统计文件夹下目录的个数,包括子文件夹里的:ls -lR|grep “^d”|wc -l说明:ls -l :长列表输出当前文件夹下...
2019-01-09 16:22:06 296
原创 Linux中Kill的使用以及信号概念
大家对kill -9 肯定非常熟悉,在工作中也经常用到。特别是你去重启tomcat时。可是多半看来,我们对-9的理解只是表面而已。很少有人(包括我)认真的去了解一下 kill -n 这个n到底是什么东东。好吧。我们来好好的认识一下这个熟悉的陌生人。1)kill从help中可以清晰的看到 -n 指的是 信号编号,那么信号编号是什么呢?2)kill -l(查看Linux/Unix的信号...
2018-12-22 11:41:34 2164 1
原创 Linux中find常见用法示例
·find path -option [ -print ] [ -exec -ok command ] {} ;find命令的参数;pathname: find命令所查找的目录路径。例如用.来表示当前目录,用/来表示系统根目录。-print: find命令将匹配的文件输出到标准输出。-exec: find命令对匹配的文件执行该参数所给出的shell命令。相应...
2018-12-18 18:07:36 216
原创 paste deploy 解说和使用
谈到WSGI,就免不了要了解paste,其中paste deploy是用来发现和配置WSGI应用的一套系统,对于WSGI应用的使用者而言,可以方便地从配置文件汇总加载WSGI应用;对于WSGI应用的开发人员而言,只需要给自己的应用提供一套简单的入口点即可。 paste deploy的官方介绍在这里,其发布在Pypi上的发行包在这里下载。借助Python的pypi包管理机制,我们可以非常方便地安装...
2018-12-17 20:01:56 758
原创 Xshell常用命令
1 删除ctrl + d 删除光标所在位置上的字符相当于VIM里x或者dlctrl + h 删除光标所在位置前的字符相当于VIM里hx或者dhctrl + k 删除光标后面所有字符相当于VIM里d shift+$ctrl + u 删除光标前面所有字符相当于VIM里d shift+^ctrl + w 删除光标前一个单词相当于VIM里dbc...
2018-12-15 12:01:30 797 1
堡垒机_知识总结
2019-08-30
Prometheus软件的概念及使用
2019-08-30
EFK部署方案_20190312_v1.0.docx
2019-08-30
jasperReports+iReport使用说明
2008-11-18
ibatis开发手册、数据库半对象化映射框架
2008-11-18
项目需要自己做的数据库迁移功能!非常实用,特来共享
2008-10-19
sturt+spring+hibernate(简单的增删改查系统)
2007-11-06
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人