自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(151)
  • 收藏
  • 关注

原创 使用cube studio开发机器学习建模的pipeline

在使用cube studio进行模型训练或推理的过程中,我们有时会发现没有符合自己要求的模板,此时我们就需要自己创建模板,并构建pipeline,以便今后在相似的建模或监控场景中直接使用,方便复用和调度。以下就以构建random forest建模的pipeline为例,记录一下如何用cube studio构建pipeline。

2023-04-29 12:55:04 3991 8

原创 VGPU的使用

开源项目,欢迎star哦,训练AI模型以及部署模型推理服务时,GPU往往是必不可少的,但当我们机器上没有足够的GPU卡可使用时,多任务并行就会有困难。针对这个问题,cube-studio上可以使用VGPU,相当于将一张GPU卡当成多张来使用,从而实现多卡多应用占用。以下我们举例说明,如何通过VGPU配置,实现推理服务的VGPU占用。

2024-07-02 20:51:47 303

原创 Cube-Studio:开源大模型全链路一站式中台

Cube-Studio是由腾讯音乐开源的一款云原生一站式AI中台,覆盖机器学习/深度学习/LLM大模型,开发、训练、推理、应用,全链路。该项目目前已是国内最火的开源算法全链路中台,上千家企业私有化部署和项目交付,非常适合数据算法架构团队搭建公司级AI中台,以及toB企业算法中台类项目交付。

2024-07-02 10:43:20 1074

原创 label studio数据标注平台的自动化标注使用

开源项目,欢迎star哦,做图文音项目过程中,我们通常会需要进行数据标注。label studio是一个比较好上手的标注平台,可以直接搜索label studio使用,也可以在cube studio中使用,在cube studio中不仅可以直接使用原生的label studio,还打通了模型训练和数据存储,可以直接使用我们自己训练好的AI模型,对我们的图文音数据来进行自动化标注。

2024-06-25 22:30:04 1178

原创 单门户上集成多种数据库查询入口

在一家公司,我们通常会有多种数据库,每种数据库因为其特性承担不同的角色,比如mysql这种轻量级数据库,很适合存储元数据,hive适合用于分布式存储,clickhouse可以做极快速的大数据查询。如果我们同时有k8s集群,又有多种数据库,来回切换操作也是很麻烦的事情,如果能在一个入口对接所有的数据库,同时链接到k8s集群,就省心很多。

2024-06-24 21:51:24 339

原创 WEB界面上使用ChatGPT

可以使用gpt4、gpt3.5,还有添加了不同先验知识的其他版本的智能问询,比如具备python先验知识的python版本,比如加入了cubestudio本身的先验知识的cubestudio版本,通过先验知识的添加,结合gpt的智能,生成可以更准确解答特定问题的私有知识库。项目有体验地址,也可以根据github上的部署文档自行部署,部署之后即可使用。进入平台WEB界面后,点击“数据智能”,可看到不同版本的智能问询。

2024-06-24 11:26:52 606

原创 k8s部署presto

这个报错的原因是没有装less,是presto用来分页的工具,在初始化脚本里已添加了,加上之后就没问题了。虽然能正常使用presto了,但是k8s中显示presto-worker的deployment有BUG,,自己打包也可以,自己写个dockerfile。jdk用的华为的镜像源,不用登录oracle。启动脚本和Presto配置文件。,应该是健康检查出了问题。,记得在环境变量里加上。配置Hive连接文件。

2024-05-23 16:55:32 745

原创 已有yarn集群部署spark

已有yarn集群的情况下,部署spark只需要部署客户端。

2024-05-18 21:25:36 352

原创 k8s中部署hive,包括客户端及服务端

推送好之后,在cube studio平台上,新建一个pipeline,使用自定义镜像模板,填写镜像为ccr.ccs.tencentyun.com/cube-studio/hadoop-hive:v3.3.2-3.1.3,debug,检查目录对不对,检查环境变量是否正确,在命令行输入hive命令,看是否能正常执行。环境变量写在/etc/profile更好,因为~/.bashrc是临时的,重启一下pod就复原了,但/etc/profile是全局的,避免一直要重复设置。登录ui界面,可以验证是否成功。

2024-05-16 16:34:33 1056

原创 在k8s中部署hadoop后的使用,包括服务端及客户端(客户端的安装及与k8s服务的对接)

在和这两篇文章中,说明了如何通过helm和k8s部署hadoop,接下来就看怎么在部署好的集群中使用hadoop了。

2024-05-09 21:52:31 1224 2

原创 helm安装hadoop报错:kubernetes cluster unreachable: get “http://localhost:8080/version“

于是执行这条命令,发现执行不成功,无法将kubeconfig写入~/.kube/config,文件不存在,也无法通过这条命令创建,但是这个报错存在就是因为helm使用的是kubeconfig,会去寻找这个默认的配置文件,那我们换个思路,手动创建这个配置文件。第二步是直接新建一个文件~/.kube/config,把kubeconfig内容粘进去,再执行helm安装hadoop的命令,就成功了。参考链接:https://github.com/k3s-io/k3s/issues/1126。

2024-05-08 18:18:39 484

原创 安装helm

文档:https://helm.sh/zh/docs/intro/install/文档记载了几种安装方法,我用的是一步到位的那种,直接运行。,可以验证是否安装成功。

2024-05-08 16:31:06 199

原创 k8s部署hadoop

配置和模板参考helm仓库:https://artifacthub.io/packages/helm/apache-hadoop-helm/hadoop。

2024-03-15 21:52:28 555

原创 helm部署hadoop

比如我现在只有1个datanode,我想改成3个datanode,复制粘贴配置信息到values.yaml(没有就自己创建),更改datanode的replicas为3,先卸载,再重新执行install命令。如果需要修改配置,在官方仓库中,点击default values按钮,可以获取默认的配置,将配置信息粘贴到values.yaml,通过helm uninstall卸载后,再通过命令。可以根据新配置重新部署。

2024-03-15 21:40:34 426 3

原创 influxdb2使用

influxdb2是不支持sql的,在web界面可以看到具体的使用命令,比如写入数据,可以直接用influx write命令来写,下面我们尝试把一个csv文件写入数据库,再查询。在页面上,data-bucket-submit可以查看,但是看不太懂那个图,再用官方示例数据试试。先在k8sdashboard找到influx的pod,点击执行,即可进入命令行界面。influxdb2首次使用时,通过k8s部署的,所以进入pod内部执行命令。除了命令行,直接通过ip+端口的形式也是可以访问web界面的。

2024-03-14 18:06:26 486

原创 k8s部署InfluxDB

pv和pvc都创建成功,但dp显示no such file or directory,说明读取不到主机路径,修改了rancher的配置,加入了/home目录,就可以了。主机看到的和实际pv挂载的路径不一致,实际默认根目录是/data.根据配置文件创建configmap。

2024-03-13 23:36:32 515

原创 datax错误记录:1. 找不到插件[streamwriter,clickhouse];2.有总bps限速条件下,单个channel的bps值不能为空,也不能为非正数

datax使用clickhouse导出数据时配置json的官方文档:https://github.com/alibaba/DataX/blob/master/clickhousereader/doc/clickhousereader.md。这个问题我用的是偷懒的方法,直接把json配置中的speed下面的byte参数删掉了,只保留了channel,问题解决,也有更复杂的办法,修改datax的配置的,我没有去动datax的配置,网上也能搜到,这里不赘述了,

2024-03-12 20:35:49 268

原创 python调用clickhouse并把结果存储为csv

【代码】python调用clickhouse并把结果存储为csv。

2024-03-12 15:31:48 199

原创 python调用clickhouse

使用clickhouse-driver包,先通过pip install clickhouse-driver安装包,再通过以下代码执行sql。

2024-03-12 11:30:47 420

原创 使用helm部署clickhouse

这个问题的解决方案,目前只找到一个修改权限,改为root权限的,可能不是最好的,但修改后确实pod可用了,具体是将zk-clickhouse的yaml文件中的spec部分修改securityContext,原来都是1000,没有创建文件的权限。ot权限后,再重启pod依然是ok的,猜测可能是后续不需要再创建文件夹了,因为挂载目录下的文件夹已经存在,其他操作又都不需要root权限。比较神奇的事情是,一开始不是root权限,修改为root权限后,文件夹创建成功,再修改为非ro。部署clickhouse客户端。

2024-03-11 18:07:58 906

原创 dolphin schedulerAPI调用(二)——创建任务

工作流code、项目code、上流节点code等可以在后端是数据库查询,可以在k8s上查看一下起的数据库是mysql还是postgresql,我这边是postgresql,根据values.yaml中配置的账号密码信息登录到数据库,可以查询到code。实际使用中,发现文档写得很不全乎,创建任务的api接口不对,具体的传参文档中也没写全,于是决定直接在前端查看创建任务实际调用的api,以及传递的参数。打开dolphinscheduler的界面,右键,检查,选择network,提交任务,查看api及参数。

2024-03-11 14:27:32 902 6

原创 dolphinescheduler调用API

language=zh_CN&lang=cn,我是用k8s部署的,所以ip和端口是由service决定的,一般访问文档是在集群外的机器访问,要记得把dolphinscheduler-api的service中的type改为NodePort,端口也不一定是12345,要看你的service暴露的是哪个端口。官方的api使用文档:https://dolphinscheduler.apache.org/zh-cn/docs/3.2.1/guide/api/open-api。返回结果显示创建成功,上ui看看。

2024-03-05 21:44:05 1144

原创 dolphinscheduler试用(一)(边用边修bug。。。。create tenant error)

我这个是standalone,修改/home/apache-dolphinscheduler-3.1.8-src/deploy/kubernetes/dolphinscheduler/values.yaml,我的resource.storage.type本身就是HDFS,所以只改动resource.hdfs.fs.defaultFS: file:///,重新用helm部署一下,再用就可以创建租户了。工作流创建完成后,默认是下线状态,点击“上线”,再点击运行,即可运行工作流。项目管理-创建项目-保存。

2024-03-05 17:17:06 873

原创 在k8s上部署dolphinscheduler

1.下载安装包,下载地址:https://dolphinscheduler.apache.org/zh-cn/download/3.1.8,通过命令wget -c https://archive.apache.org/dist/dolphinscheduler/3.1.8/apache-dolphinscheduler-3.1.8-src.tar.gz下载;以下步骤安装的是二进制版本,如果通过脚本安装,可以直接参考链接:https://helm.sh/docs/intro/install/。

2024-03-04 21:16:26 1221 2

原创 k8s单机部署zookeeper

参考文章:https://blog.csdn.net/fushan2012/article/details/129556052。出现以上图片,表示可以正常执行zookeeper。

2024-03-01 21:26:35 391

原创 k8s部署mysql

一、前置条件已部署k8s,服务端版本为1.21.14二、部署mysql执行下面的命令来创建configmap。mysql默认都是Root用户,所以只填了个密码。执行下面的命令来创建pv及pvc。kubectl创建deployment。这一步一开始我mountPath搞错了,然后在k8sdashboard上看pod日志才发现哪里错了,所以验证有问题时要注意排查。kubectl创建service。

2024-02-29 15:43:33 518

原创 K8S部署postgresql

主要是要注意其中selector的app和metadata中的app名称要一致,另外引入的configmap名称要和前面的configmap一致等等。创建好yaml文件后,通过kubectl创建deployment。replica写1就好,数据库的副本数一般1就够了,避免读写冲突。注意targetPort要和deployment暴露出来的一致,否则无法转发到deployment创建的pod。同样,写好yaml之后通过kubectl apply -f创建service。4. 创建deployment。

2024-02-28 21:24:07 1531

原创 k8s学习笔记-基础概念

11. deployment部署的是服务pod,所以才有下面这张图是吗?是不是表示,deployment部署服务pod,然后service可以去代理对应标签的服务pod?所以daemonset部署的应该不是服务pod,而是监控的pod对吗?

2024-02-24 21:26:46 878

原创 没有安装拼多多却总是弹出拼多多的广告

(作者:陈玓玏)最近发现明明没安装拼多多,却总是弹出拼多多的广告,严重影响了我耍手机!!基本上是你玩任何一个APP都会自动弹出拼多多广告的程度!!一定要找出这个垃圾app,卸载掉!!但是搞了一堆扫描,也没找到是哪个APP推送的。找了好久才找到办法,记录一下。。。手机的设置中,找到应用设置,找到应用管理,找到应用行为记录,就能看到有一个桌面上图标都没有的垃圾软件,推送也不显示图标,1分钟就要推送一次广告!!!!一分钟就要读取一次我的应用列表!!!!果断卸载,世界都清净了。。。。每个人的手机可能不一样,但总之就

2022-06-27 10:49:33 6804

原创 机器学习平台cube studio部署

(作者:陈玓玏)想要部署机器学习平台,但平台对机器还是有一定要求的,所以在腾讯云购买了一台服务器,配置信息如下,以避免在部署过程中因为机器的性能问题而部署失败。购买完成后,直接登录服务器,是酱紫的打开机器学习平台的主页,网比较好就看https://github.com/tencentmusic/cube-studio,网不太好就看https://gitee.com/data-infra/cube-studio,滑到平台部署那个位置,直接看怎么部署!部署流程和所需环境在install/readme.

2022-05-27 09:07:06 4313 3

原创 通过Pycharm中的版本控制工具VCS使用Git

日常开发中,如何使用git做好版本管理是个很重要的课题,除了在Git Bash中使用命令行来管理代码外,我们还有更简洁的,不通过命令行来管理代码,追踪变动的工具,就是直接在IDE中使用VCS,对于Python开发同学来说,这个IDE通常就是Pycharm。​clone项目在弹出的对话框中输入项目地址,并选择本地存储位置即可完成clone。如果是要新建一个项目,有两种方法:一. 可以直接在VCS中选择VCS - > Import into Version Control -> Cr

2021-04-08 11:33:38 7082 1

翻译 2021及之后的云原生预测

原文地址:https://www.aniszczyk.org/2021/01/19/cloud-native-predictions-for-2021-and-beyond/本文内容翻译自Chris Aniszczyk的个人博客我希望每个人都能度过一个美好的假期,因为2021年1月的头几个星期,从暴动到新的COVID毒株都相当疯狂。 在云原生领域,CNCF最近发布了有关我们去年完成的所有工作的年度报告。 我建议大家趁此机会阅读这份报告,鉴于大流行情况,我们度过了坚实的一年。https://twitte

2021-04-08 11:28:36 1033

原创 Pyspark获取hdfs上多个文件

(作者:陈玓玏)这个需求可以一分为二:我想直接读取所有文件并合并结果;我想获取文件路径,然后再一个一个获取结果。第一种,可以用sc.textFile(path),直接批量读取文件第二种,我暂时没找到pyspark里的好方法,所以我直接用命令行+解析命令行结果的操作进行的。命令行获取文件路径:d = os.popen("hadoop fs -ls /user/log/ctm_api_logs | awk ‘{print $8}’ ").read().split(’\n’)解析命令

2020-11-17 14:30:21 4042

原创 Python读取snappy后缀文件

(作者:陈玓玏)需要读取个hbase表调用的日志文件,是snappy后缀的。snappy是压缩文件,如果要读取其中内容,我们需要先进行解压操作。#不是这个包pip3.6 install snappy --user#是这个包pip3.6 install python-snappy --user安装好之后,python3.6进入python,读文件的时候最好加上’rb‘,否则可能报编码问题import snappycompressed = open('logs.snappy','rb').r

2020-11-17 14:25:08 4781 4

转载 如何阅读公司年报

2020-09-02 18:14:15 1009

原创 Bert源码修改完成多分类任务

(作者:陈玓玏 data-master)一直以来,我自己处理文本分类都是用的正则,但正则需要经常去维护,短信模板如果更新了,就需要考虑把新模板加到正则表达式中。这样其实挺费神的,虽然我们可以使用pyltp对文本做一些机构名/人名的替换,然后将文本去重,清洗出相对好提取正则的模板,但分类和消息来源多了之后,需要处理,测试的模板量还是很大的,所以就想,能不能把已经用正则进行分类的文本,以及正则判别出的分类做label,然后用bert进行文本分类,这样就不需要自己手动去更新正则表达式啦。但是关于bert,网上

2020-08-25 18:00:31 2887 4

转载 预训练语言模型在网易严选的应用

导读:随着Bert的发布,预训练 ( pre-train ) 成为NLP领域最为热门的方向之一,大规模的无监督语料加上少量有标注的语料成为了NLP模型的标配。本文将介绍几种常见的语言模型的基本原理和使用方式,以及语言模型在网易严选NLP业务上的实践,包括分类、文本匹配、序列标注、文本生成等。01前言文本的表征经历了漫长的发展历程,从最简单经典的bow词袋模型、以LDA为代表的主题模型、以word2vec为代表的稠密向量模型、到现在以Bert为代表的通用语言模型。词语是文本细粒度的表达,早期的预训练词向

2020-08-06 22:32:53 1278 1

原创 spark错误记录:Container on host: was preempted(没有彻底解决,只是理解这个问题)

(作者:陈玓玏 data-master)spark-sql任务跑着跑着,碰到一个bug:Container on host: was preempted又是一个新鲜的bug呢!!一通查资料,得出一个初步结论:因为我的任务,其中有task占用的内存太大,而我们的yarn又是使用的公平调度机制,当有新任务来的时候,我的task对应的容器就会被别的任务抢占。于是就简单了解下yarn的公平调度机制。yarn有先入先出调度器,容量调度器,公平调度器三种调度器。先入先出调度器,先来的任务先执行,任务

2020-07-28 17:09:17 3309 1

原创 Spark报错:The pivot column feature has more than 10000 distinct values

(作者:陈玓玏 data-master)用pyspark做窄表转宽表的时候,出现报错:pyspark.sql.utils.AnalysisException: u'The pivot column feature has more than 10000 distinct values, this could indicate an error. If this was intended, set spark.sql.pivotMaxValues to at least the number o

2020-07-27 18:26:47 1319

原创 Spark报错:grows beyond 64 KB

(作者:陈玓玏 data-master)spark脚本执行中,碰到错误:2020-06-24 16:59:53,246 [Thread-44] ERROR org.apache.spark.sql.catalyst.expressions.codegen.CodeGenerator - failed to compile: org.codehaus.janino.InternalCompilerException: Compiling "GeneratedClass": Code of meth

2020-07-22 22:59:49 3483

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除