学习笔记
文章平均质量分 84
wapecheng
这个作者很懒,什么都没留下…
展开
-
greenplum列出所有表并显示表的相关信息
greenplum列出所有表并显示表的相关信息原创 2022-08-11 14:44:39 · 1615 阅读 · 1 评论 -
Apache Pulsar千亿级消息引擎-基本介绍
Apache Pulsar顶级消息队列系统原创 2022-06-20 21:48:57 · 1709 阅读 · 0 评论 -
Airflow+celery集群部署、踩坑
Airflow安装部署原创 2021-12-07 18:15:39 · 5252 阅读 · 5 评论 -
OSError: mysql_config not found问题
提示: [root@gxd08 airflow]# yum install mysql-develLoaded plugins: langpacks, versionlockRepository base is listed more than once in the configurationRepository updates is listed more than once in the configurationRepository extras is listed more ..原创 2021-12-07 17:41:28 · 1132 阅读 · 0 评论 -
Apache Doris安装过程
0.系统与版本要求Linux 操作系统版本需求Linux 系统版本CentOS7.1 及以上Ubuntu16.04 及以上虽然要求centos7以上,但是实测在centos8安装会出现某些依赖一直安装不上的问题,因此建议安装在centos7上软件需求软件版本Java1.8 及以上GCC4.8.2 及以上开发测试环境模块CPU内存磁盘网络实例数量Frontend8核+8GB+SSD 或 SATA原创 2021-11-28 20:25:11 · 5427 阅读 · 3 评论 -
Apache Doris介绍
一、关于 Apache Doris 和 DorisDB、StarRocks 的关系Doris 最早是解决百度凤巢统计报表的专用系统,随着百度业务的飞速发展对系统进行了多次迭代,逐渐承担起百度内部业务的统计报表和多维分析需求。2013 年,我们把 Doris 进行了 MPP 框架的升级,并将新系统命名为 Palo ,2017 年我们以百度 Palo 的名字在 GitHub 上进行了开源,2018 年贡献给 Apache 基金会时,由于与国外数据库厂商重名,因此选择用回最初的名字,这就是 Apache Do转载 2021-11-02 22:15:09 · 12298 阅读 · 1 评论 -
DataX--异构数据源数据交换工具
一、Datax概览离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能。Features将不同数据源的同步抽象为从源头数据源读取数据的Reader插件,以及向目标端写入数据的Writer插件,理论上DataX框架可以支持任意数据源类型的数据同步工作。同时DataX插件体系作为一套生态系统, 每接入一套新原创 2021-09-01 22:33:56 · 2097 阅读 · 0 评论 -
数据治理概述
一、 首先认识一些名词在学习数据治理知识之前,首先要明白治理的对象都有哪些,什么才是数据?是1,2,3,4这种纯数字类型的才算数据吗?还是所有的文本数据都是数据?请往下看。1.1 元数据、数据元、数据源、源数据元数据、数据元、数据源、源数据,这几意思毫不相干却都带着一个“yuan”词语,让多初学者抓狂。数据元,标准定义:[GB/T 18391.1-2002,定义3.14] ,用一组属性描述定义、标识、表示和允许值的数据单元,数据元由三部分组成:对象、特性、表示。数据元用一组属性描述定转载 2021-08-31 16:04:26 · 6474 阅读 · 0 评论 -
数据中台与数据湖概念认知
一、数据中台1. 什么是中台? 按照数据咨询公司Thoughtworks首席咨询师王健给出的10个字定义,中台就是:“企业级的能力复用平台”“企业级”划定了中台的范围,区分开了单系统的服务化与微服务。 “能力”指定了中台的主要承载对象,能力的抽象解释了各种各样中台的存在。 “复用”定义了中台的核心价值,过去的平台化对于易复用性并没有给予足够关注。中台的兴起,使得人们的目光更多的从平台内部,转换到平台对于前台业务的支撑上。 “平台”说明了中台的主要形式,区别于应用系统拼凑的方式...转载 2021-08-05 10:06:48 · 1490 阅读 · 1 评论 -
DolphinScheduler大数据调度系统
一、背景在2017年,易观在运营自己6.8Pb大小、6.02亿月活、每天近万个调度任务的大数据平台时,受到ETL复杂的依赖关系、平台易用性、可维护性及二次开发等方面掣肘,易观的技术团队渴望找到一个具有以下功能的数据调度工具:易于使用,开发人员可以通过非常简单的拖拽操作构建ETL过程。不仅对于ETL开发人员,无法编写代码的人也可以使用此工具进行ETL操作,例如系统管理员和分析师; 解决“复杂任务依赖”问题,并且可以实时监视ETL运行状态; 支持多租户; 支持许多任务类型:Shell,MR,Spa转载 2021-06-30 09:56:30 · 12961 阅读 · 0 评论 -
阿里巴巴canal学习笔记
canal是阿里巴巴旗下的一款开源项目,纯Java开发。基于数据库增量日志解析,提供增量数据订阅&消费,目前主要支持了MySQL(也支持mariaDB)。背景早期,阿里巴巴B2B公司因为存在杭州和美国双机房部署,存在跨机房同步的业务需求。不过早期的数据库同步业务,主要是基于trigger的方式获取增量变更,不过从2010年开始,阿里系公司开始逐步的尝试基于数据库的日志解析,获取增量变更进行同步,由此衍生出了增量订阅&消费的业务,从此开启了一段新纪元。ps. 目前内部使用的同步,已经支持m转载 2021-05-25 20:34:42 · 379 阅读 · 0 评论 -
clickhouse基础教程
一、基础概念Clickhouse由俄罗斯Yandex公司开源的数据库,专为OLAP而设计。 Yandex是俄罗斯最大的搜索引擎公司,官方宣称ClickHouse 日处理记录数”十亿级”。发布之初跑分要超过很多流行的商业MPP数据库软件,对标老东家HP的Vertica和GP 官方的性能测试显示比vertica快5倍,比GP快10倍。但是:clickhouse直接可以安在各种版本的Linux系统上,macos可以通过docker来安装 官方没有提供设计和架构文档,只有开源的C++源码 不理睬Hadoop原创 2021-05-06 10:52:05 · 10806 阅读 · 3 评论 -
HIVE复杂数据类型与行转列、列转行的使用
一、复杂数据类型在hive中使用复杂数据类型的优缺点好处:由于复杂数据类型的存储数据比基本数据类型要多,在存盘上存储可以连续存储,在查询等操作时可以减少磁盘IO。坏处:复杂数据类型可能会存在着数据的重复,而且有更大的导致数据不一致的风险。hive中的复杂数据类型主要有array、map、struct三种,三种数据类型有其独特的使用场景。1、ARRAYarray即数组,array中的数据类型都是统一的,比如全为int,或者全为string。使用array中元素,访问数组中的某一原创 2020-12-23 16:56:15 · 874 阅读 · 0 评论 -
在python中使用elasticsearch的常用方法(DSL语句)
首先安装pip install elasticsearch1. 建立连接from elasticsearch import Elasticsearches = Elasticsearch(["localhost:9200"])2. 查询所有数据# 方式1:es.search(index="index_name", doc_type="type_name") # 方式2:body = { "query":{ "match_all":{} }原创 2020-11-19 12:03:24 · 1283 阅读 · 0 评论 -
mac下搭建pyspark环境
在mac下搭建pyspark需要安装的有:1.JAVA JDK2.Scala3.apache-spark4.Hadoop(可选)5.pyspark安装上面几个可以选择去官网下载安装包,解压后再自行配置环境变量。也可以选择使用brew进行安装,比较方便的一种安装方式。如果你的电脑上没有安装brew的话,可以参考下面这篇文章进行安装brew,还是比较方便的。https://www.jianshu.com/p/7ef9e0e4d3c2只需要简单的使用brew install scalabre原创 2020-08-18 10:43:39 · 2396 阅读 · 0 评论 -
pyspark入门教程
目录一、windows下配置pyspark环境 1.1 jdk下载安装 1.2 Scala下载安装 1.3 spark下载安装 1.4 Hadoop下载安装 1.5 pyspark下载安装 1.6 anaconda下载安装 1.7 测试环境是否搭建成功 二、pyspark原理简介 三、pyspark使用语法 3.1 RDD的基本操作 3.2 DataFrame的基本操作 3.3 pyspark.sql.functions中的方法简介 3.4 窗口函数的使用Pyspark学习笔原创 2020-07-20 20:18:21 · 39410 阅读 · 14 评论 -
fairseq与torch安装时报错
最近在Linux上进行深度学习框架使用时需要搭建环境,其中用到了torch与fairseq以及一些其他的依赖包。搭建环境时是从requirements.txt中进行安装的,但是在到fairseq时报错,gcc编译错误,此时torch已经安装完毕。一开始以为就是gcc环境问题,去百度了各种情况,gcc环境也重新搭建了一遍,但是仍然没有什么用处,依旧报错。最后在别人的建议下,重新创建了一个虚拟环境...原创 2020-03-09 09:43:02 · 2175 阅读 · 5 评论 -
在Windows上配置pyspark环境
在python中使用pyspark并不是单纯的导入pyspark包就可以实现的。需要由不同的环境共同搭建spark环境,才可以在python中使用pyspark。搭建pyspark所需环境:python3,jdk,spark,Scala,Hadoop(可选)一、下载并配置环境变量1.1 jdk下载地址:http://www.oracle.com/technetwork/java/java...原创 2020-02-29 16:56:37 · 1620 阅读 · 3 评论 -
docker使用入门命令
1.基本命令(一个镜像可以有多个容器进程)查看已有镜像:docker images删除docker镜像(-f :强制删除):docker rmi 搜索python安装包:docker search python在hub.docker.com搜索后下载:docker pull tallestman/gensim查看所有进程:docker ps -a查看运行进程:docker ps停止容...原创 2020-07-21 08:35:24 · 121 阅读 · 0 评论 -
Windows下java的jdk的下载及安装
jdk下载地址:https://www.oracle.com/java/technologies/javase-jdk11-downloads.html下载好后直接点击安装,傻瓜式操作,一直下一步就行安装好之后打开电脑的环境变量设置页面需要新建两个环境变量以及修改path环境变量的内容新建一:在系统变量下新建变量JAVA_HOME 变量值指向JDK安装的文件夹,并...原创 2020-02-25 20:13:23 · 920 阅读 · 3 评论 -
在封闭的环境下使用anaconda的IDE进行开发
当你在一个比较封闭的环境下进行开发,上不了网,又不想使用cmd那黑漆漆的窗口。就可以使用本文的方法配置,从而使用anaconda中自带的IDE进行开发。很方便而且好用首先,win+R输入regedit打开注册表编辑器。然后定位到“计算机\HKEY_CLASSES_ROOT.py”,没有的话就在HKEY_CLASSES_ROOT下创建.py项,然后将它的值设为pythonfile(或者自己随便...原创 2019-11-19 13:58:27 · 277 阅读 · 0 评论 -
anaconda包的路径问题
配置路径conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/msys2/conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/conda config --...原创 2019-11-19 11:14:51 · 1142 阅读 · 0 评论 -
python的多线程与多进程
1.GIL(Global Interpreter Lock)在python中,由于GIL(Global Interpreter Lock)全局解释器锁的存在,所以多线程并不是真正意义上的多线程。在 Python 语言的主流实现 CPython 中,GIL 是一个货真价实的全局线程锁,在解释器解释执行任何 Python 代码时,都需要先获得这把锁才行。CPython 进程做为一个整体,同一时间只会...原创 2019-07-07 11:40:51 · 160 阅读 · 0 评论 -
scrapy使用Redis进行分布式爬取
Reidis的简介:Redis 一个内存数据库,通过 Key-Value 键值对的的方式存储数据。由于 Redis 的数据都存储在内存中,所以访问速度非常快,因此 Redis 大量用于缓存系统,存储热点数据,可以极大的提高网站的响应速度。Redis 与其他 key - value 缓存产品有以下三个特点:Redis支持数据的持久化,可以将内存中的数据保存在磁盘中,重启的时候可以再次加载进...原创 2019-07-11 21:02:07 · 493 阅读 · 0 评论 -
scrapy与mongodb数据库
安装mongodb软件的下载:http://dl.mongodb.org/dl/win32/x86_64选择适合自己电脑的版本进行下载,建议3.4版本下载之后傻瓜式安装,可以自定义安装位置。开启数据库因为启动mongodb服务之前需要必须创建数据库文件的存放文件夹,否则命令不会自动创建,而且不能启动成功。在3.4文件夹下,新建data文件夹,在data文件下新建db文件夹指定d...原创 2019-07-11 19:29:26 · 764 阅读 · 0 评论 -
git的常用命令简介
最近突然对git起了兴趣,于是特地跑到廖雪峰的官方网站里学习了一下,罗列出了几条git的常用命令。Git:分布式版本控制系统,除此之外还有SVN与CVS集中式版本控制系统安装:Linux下使用sudo apt-get install git来安装,macOS下使用自行百度,Windows下官网下载安装包,直接安装即可git config --global user.name "Your ...原创 2019-07-06 17:26:00 · 130 阅读 · 0 评论 -
项目上线服务器端uwsgi与nginx部署
安装python需要的依赖包 yum install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gcc makepython解释器安装下载python解释器wget https://www.python.org/ftp/python/3.5...原创 2019-06-13 20:38:31 · 566 阅读 · 0 评论 -
数据分析之numpy模块的使用
numpy矩阵矩阵创建方式np.mat(‘1 2 3;4 5 6’)#可使用字符串,用空格与分号进行分隔np.matrix([[1,2],[3,4],[5,6]])#matrix与mat的用法相同a = np.mat(‘1 2 3;4 5 6;7 8 9’)b = np.matrix([[1,2,3],[4,5,6],[7,8,9]])np.bmat(‘a b;b a’)通过分块...原创 2019-07-16 20:11:13 · 198 阅读 · 0 评论 -
ffmpeg与requests结合使用爬取视频
基本步骤是利用requests模块经过路径解析后获取播放地址,然后通过ffmpeg工具进行转码保存。注:“https://jx.618g.com/?url=”是一个可进行免费解析的网站准备过程从官网下载ffmpeg文件,保存到本地,无需安装:Windows下安装FFMPEG,下载之后需要配置环境变量FFmpeg是一套用来记录、转换数字音频、视频的计算机开源程序。他提供了录制、转换以及流化...原创 2019-07-28 22:39:36 · 1671 阅读 · 0 评论 -
数据分析之pandas的使用
数据读取读取csv文本文件(csv文件一般编码方式为gbk)pd.read_table(r'路径\info.csv',encoding='编码方式',seq=',')pd.read_csv(r'路径\info.csv',encoding='编码方式',seq=',')读取excel文件pd.read_excel(r'路径\detail.xlsx',sheet_name=1,he...原创 2019-07-29 16:08:33 · 2590 阅读 · 0 评论 -
数据分析mtplotlib模块的使用
matplotlib是在python中进行数据可视化操作非常好用的一个模块,通过它,我们可以完成MATLAB中的大部分操作,而且比MATLAB更为简单好用。目前只介绍pyplot模块的使用。pyplot 基础语法基本绘图流程:创建画布与创建子图:第一部分主要作用是构建出一张空白的画布, 并可以选择是否将整个画布划分为多个部分, 方便在同一幅图上绘制多个图形的情况。 最简单的绘图可...原创 2019-07-17 22:49:37 · 535 阅读 · 0 评论 -
爬虫之使用xpath提取数据并提交到数据库
xpath是比正则表达式要慢,但是使用起来会更加简单的一种方法。xpath更加注重结构化数据,要一层一层的去寻找,直到获取到想要的唯一的元素。使用xpath的方法可以见这篇文章如何使用xpath进行数据的提取要注意在提取之前,要将服务器返回的信息进行转换处理,将其转换为xml对象。在下面这个案例中主要用了lxml与pymysql模块,将提取的信息保存到数据库中。import reques...原创 2019-06-29 16:37:27 · 1504 阅读 · 4 评论 -
爬虫之xpath的使用
一、XML的介绍使用正则来提取网页中的数据虽然效率很快,但是使用起来 比较复杂,在此就有另一种进行网页数据提取的方法就是使用xpath来进行。(1)先将 HTML文件 转换成 XML文档;(2)然后用 XPath 查找 HTML 节点或元素。1、什么是XMLXML 指可扩展标记语言(EXtensible Markup Language)XML 是一种标记语言,很类似 HTMLXM...原创 2019-06-29 16:11:02 · 648 阅读 · 0 评论 -
数据库的读写分离或主从配置
一、Mysql主从复制作用原理1、在业务复杂的系统中,有这么一个情景,有一句sql语句需要锁表,导致暂时不能使用读的服务,那么就很影响运行中的业务,使用主从复制,让主库负责写,从库负责读,这样,即使主库出现了锁表的情景,通过读从库也可以保证业务的正常运作。2、做数据的热备3、架构的扩展。业务量越来越大,I/O访问频率过高,单机无法满足,此时做多库的存储,降低磁盘I/O访问的频率,提高单个机器...原创 2019-06-20 22:36:28 · 874 阅读 · 0 评论 -
flask笔记--01
一、框架的轻重重量级的框架:为方便业务程序的开发,提供了丰富的工具、组件,如Django轻量级的框架:只提供Web框架的核心功能,自由、灵活、高度定制,如Flask、二、 明确Web开发的任务视图开发:根据客户端请求实现业务逻辑(视图)编写模板、数据库等其他的都是为了帮助视图开发,不是必备的三、认识flask3.1简介Flask诞生于2010年,是Arminronacher(人名...原创 2019-06-14 17:26:15 · 193 阅读 · 0 评论 -
flask笔记--03
八、蓝图的使用8.1 蓝图的作用可以划分flask模块,以进行分模块开发。由于我们现在的项目开发是一个相对于来说非常耗时间和精力的一个工程,如果我们将所有的Flask的请求方法都写在同一个文件下的话,非常的不便于我们的代码的管理和后期的功能代码的添加,以及我们在一个文件中写入多个路由,这会使代码维护变得困难。我们的代码显得很没有逻辑性,如果我们后期想要修改代码或者添加新的代码的话,就会显得很尴...原创 2019-06-18 21:11:39 · 140 阅读 · 0 评论 -
linux服务器
虚拟环境安装虚拟环境使用Python进行项目开发时,由于不同的项目需要,可能会配置多个开发环境,不同开发环境之间的项目依赖包如果混合在一起,可能会引起意想不到的错误。通过虚拟环境隔离不同开发环境,方便不同开发环境的共存。#安装python虚拟环境 sudo apt install -y virtualenv #vrtaulenvwrapper是virtualenv的扩展包,用于更方便管...原创 2019-06-13 20:11:07 · 3188 阅读 · 0 评论 -
网页的短信与邮箱注册
Django商城短信和邮箱注册本章知识点1、发送邮件2、发送短信3、基于django的短信和邮件注册知识点讲解一、邮箱注册1、发送邮件Smtp:轻量级邮件发送协议,邮件的发送和接收人。我们今天采用163邮箱的smtp服务器IMAP 发邮件Pop3 收邮件Smtp协议格式:邮件一般由标题,发信人,收件人,邮件内容,附件等构成,发送邮件的时候,要注意 邮件的格式。 这个格式...原创 2019-06-13 19:13:54 · 1129 阅读 · 0 评论 -
商城支付页面--支付宝接口
一、支付宝1. 搜索或者:https://open.alipay.com/platform/home.htm2. 免费入驻3. 登陆4. 同意5. 实际开发 选择 开发中心–网页&移动应用注:因为需要使用公司的营业执照等等机密信息,因此暂时创建不了,我们可以使用沙箱环境6. 沙箱环境沙箱环境也就是开发模拟环境,和真实的开发环境一样。APPID (应...原创 2019-06-13 19:13:17 · 2143 阅读 · 0 评论 -
Linux学习笔记--认识基本命令
第一章 操作系统1.1 介绍操作系统这东西,就是安装在硬件之上 的一个“大型的软件”,软件之上,我们又可以安装各种小的应用程序。比如我们常用的安卓手机Android系统,苹果手机的iOS系统,笔记本电脑的Windows系统,我们都可以在上面安装各种自己心仪的软件。他们之间的关系可以用下面的图片来表示。操作系统的发展从二十世纪七十年代到2019年,虽然时间不长,但也经历了一个非常坎坷的过...原创 2019-05-29 22:48:54 · 441 阅读 · 0 评论