自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1408)
  • 资源 (11)
  • 收藏
  • 关注

转载 机器学习-自注意力机制Self/Intra Attention简介

自注意力机制实际上是注意力机制中的一种,注意力机制:机器学习的-注意力机制简介-CSDN博客自注意力机制实际上也是一种网络的构型,它想要解决的问题是网络接收的输入是很多向量,并且向量的大小也是不确定的情况,比如机器翻译(序列到序列的问题,机器自己决定多少个标签),词性标注(Pos tagging一个向量对应一个标签),语义分析(多个向量对应一个标签)等文字处理问题。

2024-02-28 11:24:27 32

转载 机器学习的-注意力机制简介

注意力机制早在上世纪九十年代就有研究,到2014年Volodymyr的《Recurrent Models of Visual Attention》一文中将其应用在视觉领域,后来伴随着2017年Ashish Vaswani的《Attention is all you need》中Transformer结构的提出,注意力机制在NLP,CV相关问题的网络设计上被广泛应用。“注意力机制”实际上就是想将人的感知方式、注意力的行为应用在机器上,让机器学会去感知数据中的重要和不重要的部分。

2024-02-28 11:20:49 26

原创 部署VUE+SpringBoot+nginx项目

本文是前端是vite + element-plus后端 springBoot部署整个项目主要分为3个步骤,1. 部署nginx,主要是配置nginx.conf2.打包前端代码3.打包后端代码。

2024-02-26 16:53:04 774

转载 基于 Vite + Vue3 项目中三种引入 Element Plus 方式的对照说明

会自动在编译过程中将我们在业务代码里面使用到的组件以按需引入的方式进行引入,包括了组件代码和样式代码,这样的方式对开发者来说是最方便的,同时也保证了代码体积和打包时间上的优化处理,总的来说这是最推荐的方式。这种方式的好处是相对简单方便,打出来的包的体积是根据使用了的组件的数量来的,所以使用数量越少相应的体积也就越小,打包时间也会更短,当然每次新增组件引用时都需要在。这样做的好处是简单方便,但问题也很明显,那就是打出来的包是包含了所有组件源代码和样式代码的,导致。只需要上述配置即可,不需要在。

2024-02-26 16:48:28 19

转载 访问nginx出现403错误

其实大多数403错误,都主要是因为 nginx 没有网站资源目录的权限,所以为了安全起见,我们通常都不会将 nginx工作用户改成 root,而是去赋予网站资源目录权限。当我们访问 nginx 网站的时候出现403错误,我们首先想到的是客户端请求没有权限,既然是权限问题,我们就应该照着这条线索排查下去。可是,这样会导致如果我们的80端口被黑客入侵,那么黑客就拥有了 root 权限,这是我们不敢想象的。那么就找到原因了:启动nginx的是root用户,而工作用户是nginx,两个不一致就会导致403错误。

2024-02-26 15:41:35 17

转载 数据包络分析DEA

测量一些决策部门的生产效率的方法。简单说,现在有三个人,你可以叫他们DMU,a用一个甲生产了一个乙,b用两个甲生产了一个乙,c用三个甲生产了一个乙,显而易见a的效率最高,我们就把他定义为技术前沿面,他的效率为1。那么b就是1/2,c就是1/3。这样我们就可以计算出每个人的效率水平了。

2024-02-22 09:29:27 15

转载 超越POSIX:一个时代的终结?

然而,主流的POSIX操作系统采用了1对1的线程模型,理由是实现简单[30],[31]。虽然后来的PDP-11变体,如PDP-11/70,具有内存映射单元(MMU)[7],但直到1970年代末VAX架构的出现,Unix才添加了虚拟内存[4],这成为当时Unix的主要架构。从历史上看,这种解耦具有三个主要目标:(1)通过独立于物理内存空间的地址空间促进机器的独立性,(2)通过允许程序员在执行时将独立的模块组合成程序来促进模块化,(3)实现运行大型程序的可能性,这些程序无法适应物理内存(例如Lisp程序)。

2024-02-04 13:47:22 37

转载 如何提高SSD内部的并行性:增加带宽?提供多种路径?设计新架构?

源闪存控制器发送探测包,以识别和保留到目标芯片的路径,期间使用路由算法(非最小全自适应路由算法)将探测包从源闪存控制器路发送到目标闪存芯片,并保留探测包到达目标节点的互连网络链路,当探测包到达目标闪存芯片时,Venice已经保留了无冲突的前向和后向路径,接着使用反向路径将探测包发送回源闪存控制器。如下图,闪存命令控制器保持不变,主要的区别在于引入了分组,在信号到达闪存之前,在接口引入适当的数据包头,这种方法在不利用传统控制信号的情况下,将通信信号(或带宽)的数量有效地增加了约2倍。

2024-02-04 13:26:54 55

原创 git常用一些操作

4. git add xxx xxx xxx // 添加需要提交的文件到暂存容器中(如果是提交本地的所有更新,可以用 git add .)5. git commit -m "fix: xxxx/feat:xxxx" // 提交的备注信息。3. git pull origin <BRANCH_NAME> // 从指定分支拉代码。

2024-02-04 09:34:25 589

原创 Hudi学习4:Hudi架构

2024-02-04 09:30:33 361

原创 Hudi学习 6:Hudi使用

1.安装hdfs2.安装spark3.安装Scalaspark-shell 写入和读取hudi。

2024-02-04 09:27:53 762

原创 Python对日期的一些操作

print('日期早了')传入英文日期,返回标准日期格式。这里定义一个func。

2024-02-02 16:38:54 450

原创 卷积神经网络的各层介绍:卷积层、池化层、全连接

卷积神经网络的各层介绍:卷积层、池化层、全连接,深度学习,CNN,

2024-01-26 15:55:57 332

原创 大模型介绍2:核心技术(未完待续)

2) 将模型在下游各种自然语言处理任务上的小规模有标注数据进行微 调得到适配模型。由于预训练语言模型参数越大模型表现越好,这激 发了语言大模型(Transformer 架构基础上构建的预训练语言模型为自然语言处理领域带来了一系列突破式进展,成为人工智能主流技术范 式。其主要思想是通过自注意力机制获取输入序列的全局信息,并将这些信息通过网络层进行传递。1) 将模型在大规模无标注数据上进行自监督训练得到预训练模型,是目前语言大模型采用的主流架构。预训练语言模型采用“预训练。

2024-01-23 11:16:55 351

原创 大模型介绍1:理论基础

语言大模型的涌现能力[18]、规模定律[14],多模态大模型的知识表示、逻辑推理能力、泛化能力、情景学习能力[19][37]等方面有待展开深入研究,为大模型的大规模 实际应用提供理论保障。大模型基于数据驱动深度学习方式,依赖训练数据所覆盖的场景,由于复杂场景数据不足,大模型存在特定场景适用性不足的问题,面临鲁棒性和泛化性等挑战。早期的语言大模型表现出一定 的少样本学习能力,但是其学习目标主要通过预测下一个单词实现, 仍不能很好地遵循人类指令,甚至会输出无用的、有害的信息,难以 有效对齐人类的偏好。

2024-01-23 11:11:55 1172

转载 Med-PaLM2重磅揭秘!AI医生成绩比肩人类

然而,对于Med-PaLM来说,这个数字降至0.8%,与临床医生的答案(在1.4%的情况下被认为包含有偏见的证据)相比,有明显的优势。其中,29.7%的Flan-PaLM回答被认为有潜在的伤害风险,这一数字在Med-PaLM中降至5.9%,与临床医生生成的答案(5.7%)相近。如下图所示的这些结果表明了指令微调的强大优势。在由印度的医学入学考试问题组成的MedMCQA数据集上,Flan-PaLM 540B在开发测试集上达到了57.6%的成绩,超过了Galactica模型取得的52.9%的最好成绩。

2024-01-23 09:46:42 45

转载 解读 SOSP‘23 硬核论文 Mira:程序行为感知的远端内存访问优化

Mira的编译器为非交换缓存区(non-swap cache section)中的对象生成显式远程操作,使得更多的本地内存能作为频繁访问的远程对象的cache,以提高应用程序的性能。与AIFM的基于库的远程操作实现相比,Mira的实现具有更少的运行时开销和需要更少的元数据。一次profiling完成后,Mira收集所有函数的cache开销和执行时间,对所有函数的cache性能开销进行比较,选出开销最高的前10%函数,以及函数中涉及的前10%的大内存对象(heap objects)进行进一步的静态代码分析。

2024-01-23 09:00:28 45

转载 DreaMoving 让图片动起来

一张照片就能让马斯克、梅西等各大名人魔性跳舞,甚至连火爆全网的科目三都能安排上。这可不是什么高深 AI 技术,阿里通义千问移动端新增的「全民舞王」功能就能实现,还有科目三、DJ 慢摇、鬼步舞、极乐劲舞等 12 种热门舞蹈模版供你挑选。在通义千问输入「全民舞王」「通义舞王」等口令,接着在跳转界面里选择你喜欢的舞蹈、上传一张全身照,只需十几分钟,一个形神兼备的舞王就这样华丽「速成」了。想不到,浓眉大眼的爱因斯坦也能秒变潮男,动作节奏感简直不要太强。▲ 图片来自:Simon_阿文。

2024-01-09 16:51:35 234

转载 采用哈希映射让大页不再需要连续物理内存!

在本文的实现中,VA可以被映射到1个有56个slot的bucket和6个有8个slot的bucket,h=104,只需要7位来表示每个子页的物理地址。每个4KB子页都是独立分配的,但是会保证他们的物理地址会被限制在一定的范围内,以降低物理地址编码的长度。另一方面,TLB的能耗已经非常高(3-13%),如果为其设置更多的关联组或者更深的层次结构,势必会增加它的能耗。在现有的TLB架构中,可以实现a=logp/logh = 4,即在不带来任何负面影响,不需求连续物理内存的前提下,实现4倍的TLB覆盖率提升。

2024-01-08 08:54:46 82

原创 Python写入csv乱码

把encoding='utf-8' 改成 encoding='utf-8-sig'

2024-01-04 14:37:09 416

原创 AES加密数据:Python加密Java解密

CBC加密需要一个十六位的key(密钥)和一个十六位iv(偏移量)

2024-01-02 14:49:48 877

转载 ​SeaTunnel 超大数据量数据集成平台简介

主流的大数据处理引擎 SeaTunnel 都支持:包括多个版本的 Flink,Spark,以及 SeaTunnel 自己的引擎 SeaTunnel Engine。SeaTunnel 的执行流程如上图所示,最上面是 SeaTunnel 内部 SQL 和API 的定义,基于这些定义生成连接器,然后将连接器和 Job 提交到对应的引擎上进行处理,最终数据通过Sink写入目标端。我们希望支持数据源的数量更多,数据同步的性能更快,在易用性方面更好用,从这三方面不断迭代优化,以满足更多的用户需求。

2023-12-25 14:41:39 243

原创 pycharm手动安装包

以TTS包为例,找到下载并解压的包中的2个文件,一个名称一个info结尾。在pycharm中terminal执行,找到下载解压包中的依赖文件。2.手动解压,找到文件放到pycharm对应项目的lib文件夹中。4.可能需要安装该包对应的依赖。3.放到项目的lib文件夹中。

2023-12-11 17:09:25 509

转载 数据库流水线发布data Ops--Bytebase

在本文中,我们首先向读者展示了 Bytebase 的安装部署过程,以及其查询和更改的基本功能。接着,我们体验了 Bytebase 1.14.0 最新版本所带来的 ChatSQL 功能,该功能基于 OpenAI,能够根据我们的问题或需求生成相应的 SQL 语句。最后,我们实践了 Bytebase 的 GitOps 功能,通过结合版本控制系统,可以跟踪数据库结构的变化,方便我们对数据库变更进行审查、协作和回滚操作。

2023-12-11 13:35:32 114

原创 使用K-means把人群分类

K-mean 是无监督的聚类算法。

2023-12-01 15:31:41 1170

原创 python中dataframe,df中挑选几列生成新df

不知道怎么搞的时候真是费劲,搜到了一看王德发这么简单!ps: 后边是两个 中括号 [[ '列名']]

2023-12-01 15:29:00 461

原创 df新增一列数据,并指定列名

ps:list的长度要和df对齐。

2023-12-01 15:25:29 95

转载 pandas替换df中的数据

假设数据已经通过如下代码读进来了。

2023-12-01 15:12:39 24

转载 pandas的iloc和loc行列定位

Pandas。

2023-12-01 14:57:14 165

转载 python实现列转行--pivot_table函数

Pandas>>pivot_table()函数列转行index:必选参数,用来指定行索引。如果用数组做行索引,数据必须等长。 columns:必选参数,用来指定列索引。 values:可选参数,用来做集合的值。默认是显示所有的值。 aggfunc:聚合函数, pivot_table后新dataframe的值都会通过aggfunc进行运算。在pivot_table会将多重值调用aggfunc函数后放在相应的位置上。默认的aggfunc函数为求平均。 fill_value:填充NA值。默认不填充

2023-11-30 10:45:58 123

转载 机器学习---聚类算法

我们知道,分类问题是机器学习中最常见的一类问题,它的目标是确定一个物体所属的类别。例如,我们要判定一个水果是苹果、杏,还是桃。解决这类问题的办法是先给一些各种类型的水果让算法学习,然后根据学习得到的经验对一个水果的类型做出判定。这就像一个幼儿园的小朋友,老师先拿各种水果教他们,告诉每种水果是什么样子的,接下来这些孩子就会认这些类型的水果了。这种做法称为有监督学习,它有训练和预测两个过程,在训练阶段,我们用大量的样本进行学习,得到一个判定水果类型的模型。

2023-11-29 13:46:26 47

转载 MySQL性能优化

​在进行优化讲解之前,先请大家记住不要听信你看到的关于优化的“绝对真理”,而应该是在实际的业务场景下通过测试来验证你关于执行计划以及响应时间的假设。给大家提供一些优化方面的方向和思路,而具体业务场景的不同,使用的MySQL服务版本不同,都会使得优化方案的制定也不同。​MySQL凭借着出色的性能、低廉的成本、丰富的资源,已经成为绝大多数互联网公司的首选关系型数据库。

2023-11-22 15:04:47 49

原创 WPS或Excel查找A列中有B列没有的值

(B:B,A1)>0,"该行A列中值B列有","该行A列中值B列没有")

2023-11-21 10:07:56 604

原创 miniconda安装

在选择为谁安装的时候建议选择just me(这会让你构建的虚拟环境默认保存在安装路径的envs下,否则默认保存地址为C:\Users\User.conda\envs,更改默认地址较为麻烦,原文链接:https://blog.csdn.net/weixin_40438421/article/details/130474033。ps: 最后一句conda config --set show_channel_urls yes 一定要执行。记得选择一下安装路径,然后一直next到安装结束,如果看到版本号即ok。

2023-11-09 15:24:26 103

原创 python读取Excel到mysql

data1 = pd.read_excel("C:/work/20230818***/数据导入.xlsx",dtype={0:"int", 2:"str", 3:"str"},parse_dates=[4,5])data1 = pd.read_excel("C:/work/20230818***/数据导入.xlsx",dtype={0:"int", 2:"str", 3:"str"},parse_dates=[4,5])设置特定类型,和指定日期类型。

2023-10-27 18:01:37 412

原创 mysql新建用户

ps: GRANT SELECT 可以换成 insert 、update、或者all。create user '账号名'@'%' identified by '密码';GRANT SELECT ON 数据库名.表名 TO '账号名'@'%';ps: @'%' 中的 % 表示任意地点都可以登录。ps: @'%' 中的 % 表示任意地点都可以登录。分为两步,新建用户和赋权。

2023-10-27 16:03:55 128

原创 java后端调用接口Basic auth认证

headers.set("Authorization", "Basic " + Base64.getUrlEncoder().encodeToString(("用户名" + ":" + "密码").getBytes()));log.info("返回结果:{}" ,result.getBody().toJSONString());log.warn("查询失败,url={}",url);//传递参数,这里解析了传进来的JSON类型的手机号,并作为参数传给调用的接口。log.info("手机号为空!

2023-10-20 11:00:31 953

原创 java中fastJSON解析复合

/然后要取数组的第几个元素,即jsonObject.getJSONArray("data").//data是个array,所以用getJSONArray,即jsonObject.getJSONObject:取JSON对象时候用,返回JSON对象。getJSONArray:取数组时候用,返回JSON对象。getString:获取标签对应的值,返回字符串。//再获取basicInfo 的JSON对象,即。//解析JSON获取link对应的值。//首先先把字符串变成JSON对象。比如:下边的JSON。

2023-10-20 10:59:17 119

转载 Hudi集成Spark之并发控制-并行写入

针对写入操作(upsert、insert等)利用乐观并发控制来启用多个writer将数据写到同一个表中,Hudi支持文件级的乐观一致性,即对于发生在同一个表中的任何2个提交(写入),如果它们没有写入正在更改的重叠文件,则允许两个写入都成功。基于前面DeltaStreamer的例子,使用Delta Streamer消费kafka的数据写入到hudi中,这次加上并发写的参数。(4)zk下产生了对应的目录,/multiwriter_test下的目录,为代码里指定的lock_key。3)查看zk是否产生新的目录。

2023-09-27 09:40:11 134

转载 设置YOLO-V8的参数

Boxes对象可用于索引、操作边界框,并将其转换为不同的格式。Box格式转换结果是缓存的,这意味着每个对象只计算一次,并且这些值将在将来的调用中重复使用。YOLOv8可以处理很多类型的识别,比如:图片、视频、还有YouTube的网页连接,强不强!、NumPy数组、Torch张量、CSV文件、视频、目录、通配符、YouTube视频和视频流。表格✅指示了每个输入源是否可以在流模式下使用,并给出了每个输入源使用流模式的示例参数。设置预测参数,可以满足我们不同的需求。:用于操作边界框的属性和方法的对象。

2023-09-27 08:45:50 2646 11

YOLO V8 模型权重和main方法

1.YOLO V8 模型权重 2023-09-20版 2.程序识别的入口main方法

2023-09-20

chatGLM2 need‘s TDM-GCC

chatGLM2 need‘s TDM-GCC

2023-07-26

GLM2's need package,such as torch、streamlit

GLM2's need package,such as torch、streamlit

2023-07-25

datax-web 啊啊啊啊啊啊啊啊啊啊啊啊

datax-web 啊啊啊啊啊啊啊啊啊啊啊啊

2022-10-19

kafka_2.12-3.2.0kafkakakakakakakakakakakakaka

kafka_2.12-3.2.0kafkakakakakakakakakakakakaka

2022-08-05

FileZilla,啊啊啊啊啊啊

FileZilla,

2022-07-07

httpclient-4.3.1.jar httpcore-4.4.13.jar commons-logging-1.2.jar

httpclient-4.3.1.jar httpcore-4.4.13.jar commons-logging-1.2.jar

2022-04-30

VUE跨域chrome控件和vue开发组件

VUE跨域chrome控件和vue开发组件

2022-03-14

HiveTask执行SQL及合并小文件工具使用说明

HiveTask执行SQL及合并小文件工具使用说明

2022-02-21

everedit_win64_4488_portable.zip

everedit_win64_4488_portable.zip

2021-09-16

oracle-driver.zip

驱动为 ojdbc7

2021-08-10

scala-2.12.13.tgz

Scala2.12.13.tar linux安装包

2021-04-02

windows系统hadoop插件-winutilsmaster.zip

spark2.6-3.0的winutils

2021-02-21

data View H5 balabalabal

数据可视化,PRD开发工具帮助文档

2018-10-23

Pentaho Report Designer

BI学习,PRD,pentaho,报表,学习资料

2017-01-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除