wapecheng-CSDN博客

原创 Apache Doris安装过程

0.系统与版本要求Linux 操作系统版本需求Linux 系统版本CentOS7.1 及以上Ubuntu16.04 及以上虽然要求centos7以上，但是实测在centos8安装会出现某些依赖一直安装不上的问题，因此建议安装在centos7上软件需求软件版本Java1.8 及以上GCC4.8.2 及以上开发测试环境模块CPU内存磁盘网络实例数量Frontend8核+8GB+SSD 或 SATA

2021-11-28 20:25:11 5817 3

目录一、windows下配置pyspark环境 1.1 jdk下载安装 1.2 Scala下载安装 1.3 spark下载安装 1.4 Hadoop下载安装 1.5 pyspark下载安装 1.6 anaconda下载安装 1.7 测试环境是否搭建成功二、pyspark原理简介三、pyspark使用语法 3.1 RDD的基本操作 3.2 DataFrame的基本操作 3.3 pyspark.sql.functions中的方法简介 3.4 窗口函数的使用Pyspark学习笔

2020-07-20 20:18:21 40485 14

原创 python爬虫的原理介绍

一、爬虫与数据（一）为什么要做爬虫都说现在是大数据时代，但是与之相对应的问题是，大数据中的数据从何而来。可以人工收集数据，但是人工收集数据的效率却免不了太过低下。也可以找一些专门从事数据服务的公司进行购买，但会花费不菲的代价。下面是经常用到的一些数据类的网站。1、企业产生的用户数据：百度指数： http://index.baidu.com/阿里指数： https://alizs.tao...

2019-06-24 20:59:02 32526 4

原创如何以CPU方式启动Stable Diffusion WebUI?

没有显卡或者显卡很烂，还想体验SD，那就来看看吧

2023-08-28 17:42:12 5320 1

原创 greenplum列出所有表并显示表的相关信息

greenplum列出所有表并显示表的相关信息

2022-08-11 14:44:39 1917

原创 Apache Pulsar千亿级消息引擎-基本介绍

Apache Pulsar顶级消息队列系统

2022-06-20 21:48:57 1917

原创 Airflow+celery集群部署、踩坑

Airflow安装部署

2021-12-07 18:15:39 5667 5

原创 OSError: mysql_config not found问题

提示： [root@gxd08 airflow]# yum install mysql-develLoaded plugins: langpacks, versionlockRepository base is listed more than once in the configurationRepository updates is listed more than once in the configurationRepository extras is listed more ..

2021-12-07 17:41:28 1257

转载 Apache Doris介绍

一、关于 Apache Doris 和 DorisDB、StarRocks 的关系Doris 最早是解决百度凤巢统计报表的专用系统，随着百度业务的飞速发展对系统进行了多次迭代，逐渐承担起百度内部业务的统计报表和多维分析需求。2013 年，我们把 Doris 进行了 MPP 框架的升级，并将新系统命名为 Palo ，2017 年我们以百度 Palo 的名字在 GitHub 上进行了开源，2018 年贡献给 Apache 基金会时，由于与国外数据库厂商重名，因此选择用回最初的名字，这就是 Apache Do

2021-11-02 22:15:09 13560 1

原创 DataX--异构数据源数据交换工具

一、Datax概览离线数据同步工具/平台，实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能。Features将不同数据源的同步抽象为从源头数据源读取数据的Reader插件，以及向目标端写入数据的Writer插件，理论上DataX框架可以支持任意数据源类型的数据同步工作。同时DataX插件体系作为一套生态系统, 每接入一套新

2021-09-01 22:33:56 2413

转载数据治理概述

一、首先认识一些名词在学习数据治理知识之前，首先要明白治理的对象都有哪些，什么才是数据？是1，2，3，4这种纯数字类型的才算数据吗？还是所有的文本数据都是数据？请往下看。1.1 元数据、数据元、数据源、源数据元数据、数据元、数据源、源数据，这几意思毫不相干却都带着一个“yuan”词语，让多初学者抓狂。数据元，标准定义：[GB/T 18391.1－2002，定义3.14] ，用一组属性描述定义、标识、表示和允许值的数据单元，数据元由三部分组成：对象、特性、表示。数据元用一组属性描述定

2021-08-31 16:04:26 7858

转载数据中台与数据湖概念认知

一、数据中台1. 什么是中台？按照数据咨询公司Thoughtworks首席咨询师王健给出的10个字定义，中台就是：“企业级的能力复用平台”“企业级”划定了中台的范围，区分开了单系统的服务化与微服务。 “能力”指定了中台的主要承载对象，能力的抽象解释了各种各样中台的存在。 “复用”定义了中台的核心价值，过去的平台化对于易复用性并没有给予足够关注。中台的兴起，使得人们的目光更多的从平台内部，转换到平台对于前台业务的支撑上。 “平台”说明了中台的主要形式，区别于应用系统拼凑的方式...

2021-08-05 10:06:48 1840 1

转载 DolphinScheduler大数据调度系统

一、背景在2017年，易观在运营自己6.8Pb大小、6.02亿月活、每天近万个调度任务的大数据平台时，受到ETL复杂的依赖关系、平台易用性、可维护性及二次开发等方面掣肘，易观的技术团队渴望找到一个具有以下功能的数据调度工具：易于使用，开发人员可以通过非常简单的拖拽操作构建ETL过程。不仅对于ETL开发人员，无法编写代码的人也可以使用此工具进行ETL操作，例如系统管理员和分析师; 解决“复杂任务依赖”问题，并且可以实时监视ETL运行状态; 支持多租户; 支持许多任务类型：Shell，MR，Spa

2021-06-30 09:56:30 13660

转载阿里巴巴canal学习笔记

canal是阿里巴巴旗下的一款开源项目，纯Java开发。基于数据库增量日志解析，提供增量数据订阅&消费，目前主要支持了MySQL（也支持mariaDB）。背景早期，阿里巴巴B2B公司因为存在杭州和美国双机房部署，存在跨机房同步的业务需求。不过早期的数据库同步业务，主要是基于trigger的方式获取增量变更，不过从2010年开始，阿里系公司开始逐步的尝试基于数据库的日志解析，获取增量变更进行同步，由此衍生出了增量订阅&消费的业务，从此开启了一段新纪元。ps. 目前内部使用的同步，已经支持m

2021-05-25 20:34:42 519

原创 clickhouse基础教程

一、基础概念Clickhouse由俄罗斯Yandex公司开源的数据库，专为OLAP而设计。 Yandex是俄罗斯最大的搜索引擎公司，官方宣称ClickHouse 日处理记录数”十亿级”。发布之初跑分要超过很多流行的商业MPP数据库软件，对标老东家HP的Vertica和GP 官方的性能测试显示比vertica快5倍，比GP快10倍。但是：clickhouse直接可以安在各种版本的Linux系统上，macos可以通过docker来安装官方没有提供设计和架构文档，只有开源的C++源码不理睬Hadoop

2021-05-06 10:52:05 11532 3

原创 HIVE复杂数据类型与行转列、列转行的使用

一、复杂数据类型在hive中使用复杂数据类型的优缺点好处：由于复杂数据类型的存储数据比基本数据类型要多，在存盘上存储可以连续存储，在查询等操作时可以减少磁盘IO。坏处：复杂数据类型可能会存在着数据的重复，而且有更大的导致数据不一致的风险。hive中的复杂数据类型主要有array、map、struct三种，三种数据类型有其独特的使用场景。1、ARRAYarray即数组，array中的数据类型都是统一的，比如全为int，或者全为string。使用array中元素,访问数组中的某一

2020-12-23 16:56:15 1064

原创数据采集之--换个IP

很多网站会检测某一段时间某个IP的访问次数(通过流量统计，系统日志等)，如果访问次数多的不像正常人，它会禁止这个IP的访问。所以我们可以设置一些代理服务器，每隔一段时间换一个代理，就算IP被禁止，依然可以换个IP继续爬取。使用代理IP，这是爬虫/反爬虫的第二大招，通常也是最好用的。request中通过ProxyHandler来设置使用代理服务器，代理的使用很简单，可以付费在专业网站上购买稳...

2020-11-19 13:10:59 4913

原创在python中使用elasticsearch的常用方法（DSL语句）

首先安装pip install elasticsearch1. 建立连接from elasticsearch import Elasticsearches = Elasticsearch(["localhost:9200"])2. 查询所有数据# 方式1：es.search(index="index_name", doc_type="type_name") # 方式2：body = { "query":{ "match_all":{} }

2020-11-19 12:03:24 1528

原创 mac下搭建pyspark环境

在mac下搭建pyspark需要安装的有：1.JAVA JDK2.Scala3.apache-spark4.Hadoop(可选)5.pyspark安装上面几个可以选择去官网下载安装包，解压后再自行配置环境变量。也可以选择使用brew进行安装，比较方便的一种安装方式。如果你的电脑上没有安装brew的话，可以参考下面这篇文章进行安装brew，还是比较方便的。https://www.jianshu.com/p/7ef9e0e4d3c2只需要简单的使用brew install scalabre

2020-08-18 10:43:39 2611

原创 docker使用入门命令

1.基本命令（一个镜像可以有多个容器进程）查看已有镜像：docker images删除docker镜像（-f :强制删除）：docker rmi 搜索python安装包：docker search python在hub.docker.com搜索后下载：docker pull tallestman/gensim查看所有进程：docker ps -a查看运行进程：docker ps停止容...

2020-07-21 08:35:24 178

原创 fairseq与torch安装时报错

最近在Linux上进行深度学习框架使用时需要搭建环境，其中用到了torch与fairseq以及一些其他的依赖包。搭建环境时是从requirements.txt中进行安装的，但是在到fairseq时报错，gcc编译错误，此时torch已经安装完毕。一开始以为就是gcc环境问题，去百度了各种情况，gcc环境也重新搭建了一遍，但是仍然没有什么用处，依旧报错。最后在别人的建议下，重新创建了一个虚拟环境...

2020-03-09 09:43:02 2389 5

原创在Windows上配置pyspark环境

在python中使用pyspark并不是单纯的导入pyspark包就可以实现的。需要由不同的环境共同搭建spark环境，才可以在python中使用pyspark。搭建pyspark所需环境：python3，jdk，spark，Scala，Hadoop（可选）一、下载并配置环境变量1.1 jdk下载地址：http://www.oracle.com/technetwork/java/java...

2020-02-29 16:56:37 1779 3

原创 Windows下java的jdk的下载及安装

jdk下载地址：https://www.oracle.com/java/technologies/javase-jdk11-downloads.html下载好后直接点击安装，傻瓜式操作，一直下一步就行安装好之后打开电脑的环境变量设置页面需要新建两个环境变量以及修改path环境变量的内容新建一：在系统变量下新建变量JAVA_HOME 变量值指向JDK安装的文件夹，并...

2020-02-25 20:13:23 1003 3

原创在封闭的环境下使用anaconda的IDE进行开发

当你在一个比较封闭的环境下进行开发，上不了网，又不想使用cmd那黑漆漆的窗口。就可以使用本文的方法配置，从而使用anaconda中自带的IDE进行开发。很方便而且好用首先，win+R输入regedit打开注册表编辑器。然后定位到“计算机\HKEY_CLASSES_ROOT.py”，没有的话就在HKEY_CLASSES_ROOT下创建.py项，然后将它的值设为pythonfile(或者自己随便...

2019-11-19 13:58:27 374

原创 anaconda包的路径问题

配置路径conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/msys2/conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/conda config --...

2019-11-19 11:14:51 1217

原创数据分析之pandas的使用

数据读取读取csv文本文件（csv文件一般编码方式为gbk）pd.read_table(r'路径\info.csv',encoding='编码方式'，seq=',')pd.read_csv(r'路径\info.csv',encoding='编码方式'，seq=',')读取excel文件pd.read_excel(r'路径\detail.xlsx',sheet_name=1,he...

2019-07-29 16:08:33 2788

原创 ffmpeg与requests结合使用爬取视频

基本步骤是利用requests模块经过路径解析后获取播放地址，然后通过ffmpeg工具进行转码保存。注：“https://jx.618g.com/?url=”是一个可进行免费解析的网站准备过程从官网下载ffmpeg文件，保存到本地，无需安装:Windows下安装FFMPEG，下载之后需要配置环境变量FFmpeg是一套用来记录、转换数字音频、视频的计算机开源程序。他提供了录制、转换以及流化...

2019-07-28 22:39:36 1829

原创数据分析mtplotlib模块的使用

matplotlib是在python中进行数据可视化操作非常好用的一个模块，通过它，我们可以完成MATLAB中的大部分操作，而且比MATLAB更为简单好用。目前只介绍pyplot模块的使用。pyplot 基础语法基本绘图流程：创建画布与创建子图：第一部分主要作用是构建出一张空白的画布，并可以选择是否将整个画布划分为多个部分，方便在同一幅图上绘制多个图形的情况。最简单的绘图可...

2019-07-17 22:49:37 644

原创数据分析之numpy模块的使用

numpy矩阵矩阵创建方式np.mat(‘1 2 3;4 5 6’)#可使用字符串，用空格与分号进行分隔np.matrix([[1,2],[3,4],[5,6]])#matrix与mat的用法相同a = np.mat(‘1 2 3;4 5 6;7 8 9’)b = np.matrix([[1,2,3],[4,5,6],[7,8,9]])np.bmat(‘a b;b a’)通过分块...

2019-07-16 20:11:13 273

原创 scrapy使用Redis进行分布式爬取

Reidis的简介：Redis 一个内存数据库，通过 Key-Value 键值对的的方式存储数据。由于 Redis 的数据都存储在内存中，所以访问速度非常快，因此 Redis 大量用于缓存系统，存储热点数据，可以极大的提高网站的响应速度。Redis 与其他 key - value 缓存产品有以下三个特点：Redis支持数据的持久化，可以将内存中的数据保存在磁盘中，重启的时候可以再次加载进...

2019-07-11 21:02:07 579

原创 scrapy与mongodb数据库

安装mongodb软件的下载：http://dl.mongodb.org/dl/win32/x86_64选择适合自己电脑的版本进行下载，建议3.4版本下载之后傻瓜式安装，可以自定义安装位置。开启数据库因为启动mongodb服务之前需要必须创建数据库文件的存放文件夹，否则命令不会自动创建，而且不能启动成功。在3.4文件夹下，新建data文件夹，在data文件下新建db文件夹指定d...

2019-07-11 19:29:26 881

原创 scrapy反反爬虫的使用

通常防止爬虫被反主要有以下几个策略：动态设置 User-Agent（随机切换 User-Agent，模拟不同用户的浏览器信息）禁用 Cookies（也就是不启用 cookies middleware，不向 Server 发送 cookies，有些网站通过cookie 的使用发现爬虫行为），可以通过 COOKIES_ENABLED 控制 CookiesMiddleware 开启或关...

2019-07-09 23:34:01 1057

原创 python的Scrapy爬虫框架的使用方式

1.Scrapy框架的介绍scrapy是使用python编写的为了爬取网站数据，提取结构性数据而编写的一个应用框架，用途十分广泛。它是基于Twisted的一个异步处理框架，拥有架构清晰，可扩展性强，可灵活完成各种需求，各模块之间的耦合程度低，只需简单的几个模块就可以实现一个爬虫，因此上手很快。1.1 Scrapy工作机制大体上可以将Scrapy中的模块分为下面几个：引擎（Scrapy Eng...

2019-07-09 21:54:24 435

原创 python的多线程与多进程

1.GIL（Global Interpreter Lock）在python中，由于GIL（Global Interpreter Lock）全局解释器锁的存在，所以多线程并不是真正意义上的多线程。在 Python 语言的主流实现 CPython 中，GIL 是一个货真价实的全局线程锁，在解释器解释执行任何 Python 代码时，都需要先获得这把锁才行。CPython 进程做为一个整体，同一时间只会...

2019-07-07 11:40:51 215

原创 git的常用命令简介

最近突然对git起了兴趣，于是特地跑到廖雪峰的官方网站里学习了一下，罗列出了几条git的常用命令。Git：分布式版本控制系统，除此之外还有SVN与CVS集中式版本控制系统安装：Linux下使用sudo apt-get install git来安装，macOS下使用自行百度，Windows下官网下载安装包，直接安装即可git config --global user.name "Your ...

2019-07-06 17:26:00 204

原创爬虫之页面的动态加载selenium及PhantomJS的使用

我们在对网站进行爬取的时候，经常会发现有些动态的内容我们是无法获取的，或者是通过js渲染或者是通过ajax或者是通过二次请求。总之，我们能够得到的只是静态页面。比如豆瓣读书的网页。可以运行下面的代码一试。import requestsfrom lxml import etreese_url = 'https://book.douban.com/subject_search?search_te...

2019-07-03 22:16:52 591

原创爬虫之哔哩哔哩弹幕的获取

突然想爬一下哔哩哔哩的弹幕，视频不重要，弹幕才是本体，从弹幕的内容里还可以看出来大众的态度和情绪，是一个很好的舆论分析的工具。分析一下接口，是一个以list开头的xhr文件import time,requests,refrom selenium import webdriverfrom lxml import etree"""解析哔哩哔哩弹幕：哔哩哔哩二次请求的弹幕文件是一个xml...

2019-07-03 21:37:38 2821 1

原创爬虫之豆瓣登录界面

在对豆瓣的登录界面进行爬取的时候会发现，豆瓣的登录界面并不是第一次就加载出来的，而是在首次请求过后进行了二次请求。因此我们用普通的静态方式是无法获取有关登录界面的任何信息的。所以就需要使用selenium来帮助获取动态。豆瓣的登录界面可以明显看出是二次请求。import time,requestsfrom selenium import webdriverfrom lxml import...

2019-07-03 21:26:51 2673

原创爬虫之使用xpath提取数据并提交到数据库

xpath是比正则表达式要慢，但是使用起来会更加简单的一种方法。xpath更加注重结构化数据，要一层一层的去寻找，直到获取到想要的唯一的元素。使用xpath的方法可以见这篇文章如何使用xpath进行数据的提取要注意在提取之前，要将服务器返回的信息进行转换处理，将其转换为xml对象。在下面这个案例中主要用了lxml与pymysql模块，将提取的信息保存到数据库中。import reques...

2019-06-29 16:37:27 1630 4

原创爬虫之xpath的使用

一、XML的介绍使用正则来提取网页中的数据虽然效率很快，但是使用起来比较复杂，在此就有另一种进行网页数据提取的方法就是使用xpath来进行。（1）先将 HTML文件转换成 XML文档;（2）然后用 XPath 查找 HTML 节点或元素。1、什么是XMLXML 指可扩展标记语言（EXtensible Markup Language）XML 是一种标记语言，很类似 HTMLXM...

2019-06-29 16:11:02 739

空空如也

空空如也