小白白白又白cdllp-CSDN博客

原创使用cube studio开发机器学习建模的pipeline

在使用cube studio进行模型训练或推理的过程中，我们有时会发现没有符合自己要求的模板，此时我们就需要自己创建模板，并构建pipeline，以便今后在相似的建模或监控场景中直接使用，方便复用和调度。以下就以构建random forest建模的pipeline为例，记录一下如何用cube studio构建pipeline。

2023-04-29 12:55:04 5407 8

原创 MAC安装虚拟机

镜像下载完之后，点击左上角的加号，然后拖拽新下载的iso镜像到方框处，后面一路按提示操作即可。下载的ARM架构的ubuntu server，这里还有其他版本，比如x86架构的，比如带desktop的，根据自己的需求选择。MAC上安装虚拟机，windows上用的VMware station，MAC上用的VMware fusion。先双击dmg文件，再双击上图红框位置的vmware fusion，即可安装完成。点击红框后，会跳转到注册界面，注册登陆再重新点击红框内容，就会进入下载界面。

2025-07-14 13:08:48 485

原创 VGPU的使用

开源项目，欢迎star哦，训练AI模型以及部署模型推理服务时，GPU往往是必不可少的，但当我们机器上没有足够的GPU卡可使用时，多任务并行就会有困难。针对这个问题，cube-studio上可以使用VGPU，相当于将一张GPU卡当成多张来使用，从而实现多卡多应用占用。以下我们举例说明，如何通过VGPU配置，实现推理服务的VGPU占用。

2024-07-02 20:51:47 627

原创 Cube-Studio：开源大模型全链路一站式中台

Cube-Studio是由腾讯音乐开源的一款云原生一站式AI中台，覆盖机器学习/深度学习/LLM大模型，开发、训练、推理、应用，全链路。该项目目前已是国内最火的开源算法全链路中台，上千家企业私有化部署和项目交付，非常适合数据算法架构团队搭建公司级AI中台，以及toB企业算法中台类项目交付。

2024-07-02 10:43:20 4786

原创 label studio数据标注平台的自动化标注使用

开源项目，欢迎star哦，做图文音项目过程中，我们通常会需要进行数据标注。label studio是一个比较好上手的标注平台，可以直接搜索label studio使用，也可以在cube studio中使用，在cube studio中不仅可以直接使用原生的label studio，还打通了模型训练和数据存储，可以直接使用我们自己训练好的AI模型，对我们的图文音数据来进行自动化标注。

2024-06-25 22:30:04 7695 3

原创单门户上集成多种数据库查询入口

在一家公司，我们通常会有多种数据库，每种数据库因为其特性承担不同的角色，比如mysql这种轻量级数据库，很适合存储元数据，hive适合用于分布式存储，clickhouse可以做极快速的大数据查询。如果我们同时有k8s集群，又有多种数据库，来回切换操作也是很麻烦的事情，如果能在一个入口对接所有的数据库，同时链接到k8s集群，就省心很多。

2024-06-24 21:51:24 509

原创 WEB界面上使用ChatGPT

可以使用gpt4、gpt3.5，还有添加了不同先验知识的其他版本的智能问询，比如具备python先验知识的python版本，比如加入了cubestudio本身的先验知识的cubestudio版本，通过先验知识的添加，结合gpt的智能，生成可以更准确解答特定问题的私有知识库。项目有体验地址，也可以根据github上的部署文档自行部署，部署之后即可使用。进入平台WEB界面后，点击“数据智能”，可看到不同版本的智能问询。

2024-06-24 11:26:52 1396

原创 k8s部署presto

这个报错的原因是没有装less，是presto用来分页的工具，在初始化脚本里已添加了，加上之后就没问题了。虽然能正常使用presto了，但是k8s中显示presto-worker的deployment有BUG，，自己打包也可以，自己写个dockerfile。jdk用的华为的镜像源，不用登录oracle。启动脚本和Presto配置文件。，应该是健康检查出了问题。，记得在环境变量里加上。配置Hive连接文件。

2024-05-23 16:55:32 1006

原创已有yarn集群部署spark

已有yarn集群的情况下，部署spark只需要部署客户端。

2024-05-18 21:25:36 450

原创 k8s中部署hive，包括客户端及服务端

推送好之后，在cube studio平台上，新建一个pipeline，使用自定义镜像模板，填写镜像为ccr.ccs.tencentyun.com/cube-studio/hadoop-hive:v3.3.2-3.1.3，debug，检查目录对不对，检查环境变量是否正确，在命令行输入hive命令，看是否能正常执行。环境变量写在/etc/profile更好，因为~/.bashrc是临时的，重启一下pod就复原了，但/etc/profile是全局的，避免一直要重复设置。登录ui界面，可以验证是否成功。

2024-05-16 16:34:33 1874

原创在k8s中部署hadoop后的使用，包括服务端及客户端（客户端的安装及与k8s服务的对接）

在和这两篇文章中，说明了如何通过helm和k8s部署hadoop，接下来就看怎么在部署好的集群中使用hadoop了。

2024-05-09 21:52:31 1868 2

原创 helm安装hadoop报错：kubernetes cluster unreachable: get “http://localhost:8080/version“

于是执行这条命令，发现执行不成功，无法将kubeconfig写入~/.kube/config，文件不存在，也无法通过这条命令创建，但是这个报错存在就是因为helm使用的是kubeconfig，会去寻找这个默认的配置文件，那我们换个思路，手动创建这个配置文件。第二步是直接新建一个文件~/.kube/config，把kubeconfig内容粘进去，再执行helm安装hadoop的命令，就成功了。参考链接：https://github.com/k3s-io/k3s/issues/1126。

2024-05-08 18:18:39 1353

原创安装helm

文档：https://helm.sh/zh/docs/intro/install/文档记载了几种安装方法，我用的是一步到位的那种，直接运行。，可以验证是否安装成功。

2024-05-08 16:31:06 266

原创 k8s部署hadoop

配置和模板参考helm仓库：https://artifacthub.io/packages/helm/apache-hadoop-helm/hadoop。

2024-03-15 21:52:28 1416

原创 helm部署hadoop

比如我现在只有1个datanode，我想改成3个datanode，复制粘贴配置信息到values.yaml（没有就自己创建），更改datanode的replicas为3，先卸载，再重新执行install命令。如果需要修改配置，在官方仓库中，点击default values按钮，可以获取默认的配置，将配置信息粘贴到values.yaml，通过helm uninstall卸载后，再通过命令。可以根据新配置重新部署。

2024-03-15 21:40:34 922 3

原创 influxdb2使用

influxdb2是不支持sql的，在web界面可以看到具体的使用命令，比如写入数据，可以直接用influx write命令来写，下面我们尝试把一个csv文件写入数据库，再查询。在页面上，data-bucket-submit可以查看，但是看不太懂那个图，再用官方示例数据试试。先在k8sdashboard找到influx的pod，点击执行，即可进入命令行界面。influxdb2首次使用时，通过k8s部署的，所以进入pod内部执行命令。除了命令行，直接通过ip+端口的形式也是可以访问web界面的。

2024-03-14 18:06:26 966

原创 k8s部署InfluxDB

pv和pvc都创建成功，但dp显示no such file or directory，说明读取不到主机路径，修改了rancher的配置，加入了/home目录，就可以了。主机看到的和实际pv挂载的路径不一致，实际默认根目录是/data.根据配置文件创建configmap。

2024-03-13 23:36:32 1001

原创 datax错误记录：1. 找不到插件[streamwriter,clickhouse]；2.有总bps限速条件下，单个channel的bps值不能为空，也不能为非正数

datax使用clickhouse导出数据时配置json的官方文档：https://github.com/alibaba/DataX/blob/master/clickhousereader/doc/clickhousereader.md。这个问题我用的是偷懒的方法，直接把json配置中的speed下面的byte参数删掉了，只保留了channel，问题解决，也有更复杂的办法，修改datax的配置的，我没有去动datax的配置，网上也能搜到，这里不赘述了，

2024-03-12 20:35:49 501

原创 python调用clickhouse并把结果存储为csv

【代码】python调用clickhouse并把结果存储为csv。

2024-03-12 15:31:48 376

原创 python调用clickhouse

使用clickhouse-driver包，先通过pip install clickhouse-driver安装包，再通过以下代码执行sql。

2024-03-12 11:30:47 775

原创使用helm部署clickhouse

这个问题的解决方案，目前只找到一个修改权限，改为root权限的，可能不是最好的，但修改后确实pod可用了，具体是将zk-clickhouse的yaml文件中的spec部分修改securityContext，原来都是1000，没有创建文件的权限。ot权限后，再重启pod依然是ok的，猜测可能是后续不需要再创建文件夹了，因为挂载目录下的文件夹已经存在，其他操作又都不需要root权限。比较神奇的事情是，一开始不是root权限，修改为root权限后，文件夹创建成功，再修改为非ro。部署clickhouse客户端。

2024-03-11 18:07:58 1562

原创 dolphin schedulerAPI调用（二）——创建任务

工作流code、项目code、上流节点code等可以在后端是数据库查询，可以在k8s上查看一下起的数据库是mysql还是postgresql，我这边是postgresql，根据values.yaml中配置的账号密码信息登录到数据库，可以查询到code。实际使用中，发现文档写得很不全乎，创建任务的api接口不对，具体的传参文档中也没写全，于是决定直接在前端查看创建任务实际调用的api，以及传递的参数。打开dolphinscheduler的界面，右键，检查，选择network，提交任务，查看api及参数。

2024-03-11 14:27:32 2274 6

原创 dolphinescheduler调用API

language=zh_CN&lang=cn，我是用k8s部署的，所以ip和端口是由service决定的，一般访问文档是在集群外的机器访问，要记得把dolphinscheduler-api的service中的type改为NodePort，端口也不一定是12345，要看你的service暴露的是哪个端口。官方的api使用文档：https://dolphinscheduler.apache.org/zh-cn/docs/3.2.1/guide/api/open-api。返回结果显示创建成功，上ui看看。

2024-03-05 21:44:05 2574

原创 dolphinscheduler试用（一）（边用边修bug。。。。create tenant error）

我这个是standalone，修改/home/apache-dolphinscheduler-3.1.8-src/deploy/kubernetes/dolphinscheduler/values.yaml，我的resource.storage.type本身就是HDFS，所以只改动resource.hdfs.fs.defaultFS: file:///，重新用helm部署一下，再用就可以创建租户了。工作流创建完成后，默认是下线状态，点击“上线”，再点击运行，即可运行工作流。项目管理-创建项目-保存。

2024-03-05 17:17:06 1086 1

原创在k8s上部署dolphinscheduler

1.下载安装包，下载地址：https://dolphinscheduler.apache.org/zh-cn/download/3.1.8，通过命令wget -c https://archive.apache.org/dist/dolphinscheduler/3.1.8/apache-dolphinscheduler-3.1.8-src.tar.gz下载；以下步骤安装的是二进制版本，如果通过脚本安装，可以直接参考链接：https://helm.sh/docs/intro/install/。

2024-03-04 21:16:26 2301 3

原创 k8s单机部署zookeeper

参考文章：https://blog.csdn.net/fushan2012/article/details/129556052。出现以上图片，表示可以正常执行zookeeper。

2024-03-01 21:26:35 528

原创 k8s部署mysql

一、前置条件已部署k8s，服务端版本为1.21.14二、部署mysql执行下面的命令来创建configmap。mysql默认都是Root用户，所以只填了个密码。执行下面的命令来创建pv及pvc。kubectl创建deployment。这一步一开始我mountPath搞错了，然后在k8sdashboard上看pod日志才发现哪里错了，所以验证有问题时要注意排查。kubectl创建service。

2024-02-29 15:43:33 766

原创 K8S部署postgresql

主要是要注意其中selector的app和metadata中的app名称要一致，另外引入的configmap名称要和前面的configmap一致等等。创建好yaml文件后，通过kubectl创建deployment。replica写1就好，数据库的副本数一般1就够了，避免读写冲突。注意targetPort要和deployment暴露出来的一致，否则无法转发到deployment创建的pod。同样，写好yaml之后通过kubectl apply -f创建service。4. 创建deployment。

2024-02-28 21:24:07 2724

原创 k8s学习笔记-基础概念

11. deployment部署的是服务pod，所以才有下面这张图是吗？是不是表示，deployment部署服务pod，然后service可以去代理对应标签的服务pod？所以daemonset部署的应该不是服务pod，而是监控的pod对吗？

2024-02-24 21:26:46 953

原创没有安装拼多多却总是弹出拼多多的广告

（作者：陈玓玏）最近发现明明没安装拼多多，却总是弹出拼多多的广告，严重影响了我耍手机！！基本上是你玩任何一个APP都会自动弹出拼多多广告的程度！！一定要找出这个垃圾app，卸载掉！！但是搞了一堆扫描，也没找到是哪个APP推送的。找了好久才找到办法，记录一下。。。手机的设置中，找到应用设置，找到应用管理，找到应用行为记录，就能看到有一个桌面上图标都没有的垃圾软件，推送也不显示图标，1分钟就要推送一次广告！！！！一分钟就要读取一次我的应用列表！！！！果断卸载，世界都清净了。。。。每个人的手机可能不一样，但总之就

2022-06-27 10:49:33 7675

原创机器学习平台cube studio部署

（作者：陈玓玏）想要部署机器学习平台，但平台对机器还是有一定要求的，所以在腾讯云购买了一台服务器，配置信息如下，以避免在部署过程中因为机器的性能问题而部署失败。购买完成后，直接登录服务器，是酱紫的打开机器学习平台的主页，网比较好就看https://github.com/tencentmusic/cube-studio，网不太好就看https://gitee.com/data-infra/cube-studio，滑到平台部署那个位置，直接看怎么部署！部署流程和所需环境在install/readme.

2022-05-27 09:07:06 5909 4

原创通过Pycharm中的版本控制工具VCS使用Git

日常开发中，如何使用git做好版本管理是个很重要的课题，除了在Git Bash中使用命令行来管理代码外，我们还有更简洁的，不通过命令行来管理代码，追踪变动的工具，就是直接在IDE中使用VCS，对于Python开发同学来说，这个IDE通常就是Pycharm。clone项目在弹出的对话框中输入项目地址，并选择本地存储位置即可完成clone。如果是要新建一个项目，有两种方法：一. 可以直接在VCS中选择VCS - > Import into Version Control -> Cr

2021-04-08 11:33:38 8424 1

翻译 2021及之后的云原生预测

原文地址：https://www.aniszczyk.org/2021/01/19/cloud-native-predictions-for-2021-and-beyond/本文内容翻译自Chris Aniszczyk的个人博客我希望每个人都能度过一个美好的假期，因为2021年1月的头几个星期，从暴动到新的COVID毒株都相当疯狂。在云原生领域，CNCF最近发布了有关我们去年完成的所有工作的年度报告。我建议大家趁此机会阅读这份报告，鉴于大流行情况，我们度过了坚实的一年。https：//twitte

2021-04-08 11:28:36 1116

原创 Pyspark获取hdfs上多个文件

（作者：陈玓玏）这个需求可以一分为二：我想直接读取所有文件并合并结果；我想获取文件路径，然后再一个一个获取结果。第一种，可以用sc.textFile(path)，直接批量读取文件第二种，我暂时没找到pyspark里的好方法，所以我直接用命令行+解析命令行结果的操作进行的。命令行获取文件路径：d = os.popen("hadoop fs -ls /user/log/ctm_api_logs | awk ‘{print $8}’ ").read().split(’\n’)解析命令

2020-11-17 14:30:21 5665

原创 Python读取snappy后缀文件

（作者：陈玓玏）需要读取个hbase表调用的日志文件，是snappy后缀的。snappy是压缩文件，如果要读取其中内容，我们需要先进行解压操作。#不是这个包pip3.6 install snappy --user#是这个包pip3.6 install python-snappy --user安装好之后，python3.6进入python，读文件的时候最好加上’rb‘，否则可能报编码问题import snappycompressed = open('logs.snappy','rb').r

2020-11-17 14:25:08 5510 4

转载如何阅读公司年报

2020-09-02 18:14:15 1084

原创 Bert源码修改完成多分类任务

（作者：陈玓玏 data-master）一直以来，我自己处理文本分类都是用的正则，但正则需要经常去维护，短信模板如果更新了，就需要考虑把新模板加到正则表达式中。这样其实挺费神的，虽然我们可以使用pyltp对文本做一些机构名/人名的替换，然后将文本去重，清洗出相对好提取正则的模板，但分类和消息来源多了之后，需要处理，测试的模板量还是很大的，所以就想，能不能把已经用正则进行分类的文本，以及正则判别出的分类做label，然后用bert进行文本分类，这样就不需要自己手动去更新正则表达式啦。但是关于bert，网上

2020-08-25 18:00:31 3083 4

转载预训练语言模型在网易严选的应用

导读：随着Bert的发布，预训练 ( pre-train ) 成为NLP领域最为热门的方向之一，大规模的无监督语料加上少量有标注的语料成为了NLP模型的标配。本文将介绍几种常见的语言模型的基本原理和使用方式，以及语言模型在网易严选NLP业务上的实践，包括分类、文本匹配、序列标注、文本生成等。01前言文本的表征经历了漫长的发展历程，从最简单经典的bow词袋模型、以LDA为代表的主题模型、以word2vec为代表的稠密向量模型、到现在以Bert为代表的通用语言模型。词语是文本细粒度的表达，早期的预训练词向

2020-08-06 22:32:53 1418 1

原创 spark错误记录：Container on host: was preempted（没有彻底解决，只是理解这个问题）

（作者：陈玓玏 data-master)spark-sql任务跑着跑着，碰到一个bug：Container on host: was preempted又是一个新鲜的bug呢！！一通查资料，得出一个初步结论：因为我的任务，其中有task占用的内存太大，而我们的yarn又是使用的公平调度机制，当有新任务来的时候，我的task对应的容器就会被别的任务抢占。于是就简单了解下yarn的公平调度机制。yarn有先入先出调度器，容量调度器，公平调度器三种调度器。先入先出调度器，先来的任务先执行，任务

2020-07-28 17:09:17 3653 1

原创 Spark报错：The pivot column feature has more than 10000 distinct values

（作者：陈玓玏 data-master)用pyspark做窄表转宽表的时候，出现报错：pyspark.sql.utils.AnalysisException: u'The pivot column feature has more than 10000 distinct values, this could indicate an error. If this was intended, set spark.sql.pivotMaxValues to at least the number o

2020-07-27 18:26:47 1444

空空如也

空空如也