- 博客(226)
- 资源 (27)
- 问答 (1)
- 收藏
- 关注

原创 【AI大模型】Ollama部署本地大模型DeepSeek-R1,交互界面Open-WebUI,RagFlow构建私有知识库
DeepSeek官网DeepSeek(深度求索)是一家专注于实现通用人工智能(AGI)的中国科技公司,致力于通过技术探索与创新,推动智能技术的广泛应用。Ollama 是一个强大的工具,旨在简化大型语言模型的部署和推理过程。它通过模型压缩和优化技术,使得在本地或边缘设备上运行 AI 模型变得高效且易于管理。无论是开发者、研究人员还是企业用户,Ollama 都能提供灵活和支持,满足多种应用场景的需求。
2025-02-11 05:00:00
10252
102

原创 【2024 CSDN博客之星】人工智能领域 我的机器学习年度深度总结
回顾2024年,这一年我在CSDN平台上笔耕不辍,相继发布了高质量70多篇与人工智能机器学习、深度学习、机器视觉等相关的技术原创博客。其中,关于机器学习基础与相关算法的有22篇,从理论层面深入剖析机器学习的各类算法原理,如决策树、支持向量机等,为读者搭建起机器学习的理论框架;机器学习项目实战类博客有7篇,通过实际案例,如预测房价、客户流失分析等项目,让读者亲身体验如何将机器学习算法应用于实际业务场景;深度学习基础与项目实战共计22篇。
2025-01-20 14:13:08
20931
106
原创 【设计模式精讲】创建型模式之原型模式(深克隆、浅克隆)
定义: 原型模式(Prototype Design Pattern)用一个已经创建的实例作为原型,通过复制该原型对象来创建一个和原型对象相同的新对象。西游记中的孙悟空 拔毛变小猴,孙悟空这种根据自己的形状复制出多个身外化身的技巧,在面向对象软件设计领域被称为原型模式.孙悟空就是原型对象.原型模式主要解决的问题。
2025-02-19 05:00:00
602
11
原创 【设计模式精讲】结构型模式之代理模式(静态代理、JDK动态代理、cglib动态代理)
在软件开发中,由于一些原因,客户端不想或不能直接访问一个对象,此时可以通过一个称为"代理"的第三者来实现间接访问.该方案对应的设计模式被称为代理模式.代理模式(Proxy Design Pattern ) 原始定义是:让你能够提供对象的替代品或其占位符。代理控制着对于原对象的访问,并允许将请求提交给对象前后进行一些处理。现实生活中的代理:海外代购软件开发中的代理。
2025-02-19 05:00:00
760
11
原创 【设计模式精讲】创建型模式之工厂方法模式(简单工厂、工厂方法)
简单工厂不是一种设计模式,反而比较像是一种编程习惯。简单工厂模式又叫做静态工厂方法模式(static Factory Method pattern),它是通过使用静态方法接收不同的参数来返回不同的实例对象. 定义一个工厂类,根据传入的参数不同返回不同的实例,被创建的实例具有共同的父类或接口。(1)需要创建的对象较少。(2)客户端不关心对象的创建过程。封装了创建对象的过程,可以通过参数直接获取对象。
2025-02-18 05:00:00
1335
12
原创 【设计模式精讲】创建型模式之抽象工厂模式、建造者模式
抽象工厂模式比工厂方法模式的抽象程度更高. 在工厂方法模式中每一个具体工厂只需要生产一种具体产品,但是在抽象工厂模式中一个具体工厂可以生产一组相关的具体产品,这样一组产品被称为产品族.产品族中的每一个产品都分属于某一个产品继承等级结构.1) 产品等级结构与产品族产品等级结构:产品等级结构即产品的继承结构,如一个抽象类是电视机,其子类有海尔电视机、海信电视机、TCL电视机,则抽象电视机与具体品牌的电视机之间构成了一个产品等级结构,抽象电视机是父类,而具体品牌的电视机是其子类。产品族。
2025-02-18 05:00:00
1065
11
原创 【设计模式精讲】六大设计原则 (SOLID)
古人云: 有道无术,术可求.有术无道,止于术.而设计模式通常需要遵循一些设计原则,在设计原则的基础之上衍生出了各种各样的设计模式。设计原则是设计要求,设计模式是设计方案,使用设计模式的代码则是具体的实现。设计模式中主要有六大设计原则,简称为SOLID ,是由于各个原则的首字母简称合并的来(两个L算一个,solid 稳定的),六大设计原则分别如下:1、单一职责原则(Single Responsibitity Principle)2、开放封闭原则(Open Close Principle)。
2025-02-17 05:00:00
2253
53
原创 【设计模式精讲】创建型模式之单例模式(饿汉式、懒汉式、双重校验、静态内部类、枚举)
1 ) 定义单例模式(Singleton Pattern)是 Java 中最简单的设计模式之一,此模式保证某个类在运行期间,只有一个实例对外提供服务,而这个类被称为单例类。单例模式也比较好理解,比如一个人一生当中只能有一个真实的身份证号,一个国家只有一个政府,类似的场景都是属于单例模式。2 ) 使用单例模式要做的两件事保证一个类只有一个实例为该实例提供一个全局访问节点3 ) 单例模式结构1 ) 单例的定义单例设计模式保证某个类在运行期间,只有一个实例对外提供服务,而这个类被称为单例类。
2025-02-17 05:00:00
2410
34
原创 【JVM】JVM垃圾收集器:ZGC垃圾收集器深入解析
由于GC线程和应用线程是并发执行的,所以肯定会存在应用线程去A对象内部的引用所指向的对象B的时候,这个对象B正在被GC线程移动或者其他操作,加上读屏障之后,应用线程会去探测对象B是否被GC线程操作,然后等待操作完成再读取对象,确保数据的准确性。这就是ZGC在标记和转移阶段速度更快的原因。这就是ZGC的高明之处,利用虚拟空间换时间,这三个空间的切换是由垃圾回收的不同阶段触发的,通过限定三个空间在同一时间点有且仅有一个空间有效高效的完成GC过程的并发操作,具体实现会在后面讲ZGC并发处理算法的部分再详细描述。
2025-02-16 05:00:00
2802
13
原创 【设计模式精讲】设计模式概述、UML图
课程大纲**设计模式(Design pattern)**是一套被反复使用、多数人知晓的、经过分类编目的、代码设计经验的总结在GOF编写的设计模式(可复用面向对象软件的基础)一书中说道: 本书涉及的设计模式并不描述新的或未经证实的设计,我们只收录那些在不同系统中多次使用过的成功设计。大部分设计模式要解决的都是代码的可重用性、可扩展性问题如果说数据结构和算法是教你如何写出高效代码,那设计模式讲的是如何写出可扩展、可读、可维护的高质量代码,所以,它们跟平时的编码会有直接的关系,也会直接影响到你的开发能力。
2025-02-16 05:00:00
2708
11
原创 【JVM】JVM垃圾收集器:CMS垃圾收集器深入解析
白色对象的引用关系时, 就将这个要删除的引用记录下来, 在并发扫描结束之后, 再将这些记录过的引用关系中的灰色对象为根, 重新扫描一次,这样就能扫描到白色的对象,将白色对象直接标记为黑色(目的就是让这种对象在本轮gc清理中能存活下来,待下一轮gc的时候重新扫描,这个对象也有可能是浮动垃圾),那么老年代的对象也应该加入gc roots的范围中,但是如果每次进行young gc我们都需要扫描一次老年代的话,那我们进行垃圾回收的代价实在是太大了,因此我们引入了一种叫做记忆集的抽象数据结构来记录这种引用关系。
2025-02-15 05:00:00
3475
13
原创 【JVM】JVM垃圾收集器:G1垃圾收集器深入解析
在任意一次收集暂停中,CSet所有分区都会被释放,内部存活的对象都会被转移到分配的空闲分区中。在[ 整堆5%, 整堆60% ]的基础上,G1会计算下现在Eden区回收大概要多久时间,如果回收时间远远小于参数-XX:MaxGCPauseMills设定的值(默认200ms),那么增加年轻代的region,继续给新对象存放,不会马上做YoungGC。如果发现全局缓冲区日志积累较多,G1会调用更多的线程来出来缓冲区日志,甚至会调用App Thread 来处理,造成应用任务堵塞,所以必须要尽量避免这样的现象出现。
2025-02-15 05:00:00
3473
12
原创 【JVM】JVM 内部的优化逻辑
当超过一定的时间限度,如果方法的调用次数仍然不足以让它提交给即时编译器编译,那么这个方法的调用计数器就会被减少一半,这个过程称为方法调用计数器热度的衰减(Counter Decay),而这段时间就成为此方法的统计的半衰周期( Counter Half Life Time)。对于第二种是由循环体出发的,但是编译器依然会以整个方法(而不是单独的循环体)作为编译对象,因为发生在方法执行过程中,称为栈上替换(On Stack Replacement,简称为 OSR 编译,即方法栈帧还在栈上,方法就被替换了)。
2025-02-14 05:00:00
3882
13
原创 【JVM】JVM 垃圾收集器:浅析(Serial、SerialOld、ParNew、Parallel Scavenge、Parallel Old、CMS、G1、ZGC)
使用G1收集器时,Java堆的内存布局与就与其他收集器有很大差别,它将整个Java堆划分为多个大小相等的独立区域(Region),虽然还保留有新生代和老年代的概念,但新生代和老年代不再是物理隔离的了,它们都是一部分Region(不需要连续)的集合。Parallel Scavenge收集器是一个新生代收集器,它也是使用复制算法的收集器,又是并行的多线程收集器,看上去和ParNew一样,但是Parallel Scanvenge更关注系统的。
2025-02-14 05:00:00
3752
12
原创 【JVM】Java对象内存模型、如何判定对象已死亡
新生代中的可用内存:复制算法用来担保的内存为9:1可用内存中Eden:S1区为8:1即新生代中Eden:S1:S2 = 8:1:1现代的商业虚拟机都采用这种收集算法来回收新生代,IBM公司的专门研究表明,新生代中的对象大概98%是“朝生夕死”的。
2025-02-13 05:00:00
4772
13
原创 【JVM】JVM 深入运行时数据区
首先“aaaa”会被认为字面量,先在字符串常量池中查找(.equals()),如果没有找到,在堆中创建“aaaa”字符串对象,并且将“aaaa”的引用维护到字符串常量池中(实际是一个hashTable结构,存放key-value结构数据),再返回该引用;首先“aaaa”会被认为字面量,先在字符串常量池中查找(.equals()),如果没有找到,在堆中创建“aaaa”字符串对象,然后再在堆中创建一个“aaaa”对象,返回后面“aaaa”的引用;:类,接口,方法,字段等相关的描述信息。最多创建一个字符串对象。
2025-02-13 05:00:00
4622
13
原创 【JVM】JVM性能优化
对象逃逸的本质是对象指针的逃逸。在计算机语言编译器优化原理中,逃逸分析是指分析指针动态范围的方法,它同编译器优化原理的指针分析和外形分析相关联。当变量(或者对象)在方法中分配后,其指针有可能被返回或者被全局引用,这样就会被其他方法或者线程所引用,这种现象称作指针(或者引用)的逃逸(Escape)。通俗点讲,如果一个对象的指针被多个方法或者线程引用时,那么我们就称这个对象的指针(或对象)的逃逸(Escape)。逃逸分析,是一种可以有效减少Java 程序中同步负载和内存堆分配压力的跨函数全局数据流分析算法。
2025-02-12 05:00:00
5482
11
原创 HTTPS原理详解、安装与使用、JAVA代码实现
HTTPS通过SSL/TLS协议,结合非对称加密、对称加密、数字证书等技术,实现了安全通信。其核心在于密钥交换、身份认证和数据加密,确保互联网数据传输的机密性、完整性和可信性。随着TLS 1.3的普及和硬件加速,HTTPS已成为现代Web安全的基石。
2025-02-12 05:00:00
5597
13
原创 【Java】多线程和高并发编程(四):阻塞队列(中)LinkedBlockingQueue、PriorityBlockingQueue
首先PriorityBlockingQueue是一个优先级队列,他不满足先进先出的概念。会将查询的数据进行排序,排序的方式就是基于插入数据值的本身。如果是自定义对象必须要实现Comparable接口才可以添加到优先级队列排序的方式是基于二叉堆实现的。底层是采用数据结构实现的二叉堆。优先级队列PriorityBlockingQueue基于二叉堆实现的。PriorityBlockingQueue是基于数组实现的二叉堆。二叉堆是什么?二叉堆就是一个完整的二叉树。任意一个节点大于父节点或者小于父节点。
2025-02-11 05:00:00
5910
13
原创 【Java】多线程和高并发编程(四):阻塞队列(下)DelayQueue、SynchronousQueue
DelayQueue就是一个延迟队列,生产者写入一个消息,这个消息还有直接被消费的延迟时间。需要让消息具有延迟的特性。DelayQueue也是基于二叉堆结构实现的,甚至本事就是基于PriorityQueue实现的功能。二叉堆结构每次获取的是栈顶的数据,需要让DelayQueue中的数据,在比较时,跟根据延迟时间做比较,剩余时间最短的要放在栈顶。// 发现DelayQueue中的元素,需要继承Delayed接口。// 接口继承了Comparable,这样就具备了比较的能力。
2025-02-11 05:00:00
5575
15
原创 【Java】多线程和高并发编程(三):锁(下)深入ReentrantReadWriteLock
写锁加锁流程// 写锁加锁的入口// 阿巴阿巴!!if (!// 读写锁的写锁实现tryAcquire// 拿到当前线程// 拿到state的值// 得到state低16位的值// 判断是否有线程持有着锁资源if (c!= 0) {// 当前没有线程持有写锁,读写互斥,告辞。// 有线程持有写锁,持有写锁的线程不是当前线程,不是锁重入,告辞。// 当前线程持有写锁。锁重入。// 没有超过锁重入的次数,正常 + 1// 尝试获取锁资源// CAS拿锁!
2025-02-10 05:00:00
6982
57
原创 【Java】多线程和高并发编程(四):阻塞队列(上)基础概念、ArrayBlockingQueue
阻塞队列中,如果需要线程挂起操作,判断有无数据的位置采用的是while循环 ,为什么不能换成if。生产者消费者是设计模式的一种。E走判断,发现有空余位置,可以添加数据到队列,E添加数据,走enqueue。如果判断是if,A在E释放锁资源后,拿到锁资源,直接走enqueue方法。此时A线程就是在putIndex的位置,覆盖掉之前的数据,造成数据安全问题。是基于数组实现的队列结构,数组长度不可变,必须提前设置数组长度信息。线程A,线程B,线程E,线程C。如果队列是满的, 就一直挂起,直到被唤醒,或者被中断。
2025-02-10 05:00:00
7084
42
原创 【Java】多线程和高并发编程(三):锁(上)锁的分类、深入synchronized
偏向锁在升级为轻量级锁时,会涉及到偏向锁撤销,需要等到一个安全点(STW),才可以做偏向锁撤销,在明知道有并发情况,就可以选择不开启偏向锁,或者是设置偏向锁延迟开启。:如果在一个循环中,频繁的获取和释放做资源,这样带来的消耗很大,锁膨胀就是将锁的范围扩大,避免频繁的竞争和获取锁资源带来不必要的消耗。:当前线程获取到A锁,在获取之后尝试再次获取A锁,无法获取到的,因为A锁被当前线程占用着,需要等待自己释放锁再获取锁。:线程A获取到了锁资源,线程B没有拿到,线程B去排队,线程C来了,先尝试竞争一波。
2025-02-09 05:00:00
7095
47
原创 【Java】多线程和高并发编程(三):锁(中)深入ReentrantLock
AQS就是AbstractQueuedSynchronizer抽象类,AQS其实就是JUC包下的一个基类,JUC下的很多内容都是基于AQS实现了部分功能,比如ReentrantLock,ThreadPoolExecutor,阻塞队列,CountDownLatch,Semaphore,CyclicBarrier等等都是基于AQS实现。首先AQS中提供了一个由volatile修饰,并且采用CAS方式修改的int类型的state变量。
2025-02-09 05:00:00
7567
28
原创 【Java】多线程和高并发编程(一):线程的基础概念
如果在main线程中调用了t1.join(2000),那么main线程会进入到等待状态,需要等待t1执行2s后,在恢复到就绪状态等待CPU调度。CPU在极短的时间内,反复切换执行不同的线程,看似好像是并行,但是只是CPU高速的切换。如果在main线程中调用了t1.join(),那么main线程会进入到等待状态,需要等待t1线程全部执行完毕,在恢复到就绪状态等待CPU调度。不如要处理一个网络等待的操作,开启一个线程去处理需要网络等待的任务,让当前业务线程可以继续往下执行逻辑,效率是可以得到大幅度提升的。
2025-02-08 05:00:00
7961
16
原创 【Java】多线程和高并发编程(二):并发编程的三大特性
不同的硬件和不同的操作系统在内存上的操作有一定差异的。Java为了解决相同代码在不同操作系统上出现的各种问题,用JMM屏蔽掉各种硬件和操作系统带来的差异。让Java的并发编程可以做到跨平台。JMM规定所有变量都会存储在主内存中,在操作的时候,需要从主内存中复制一份到线程内存(CPU内存),在线程内部做计算。然后再写回主内存中(不一定!原子性的定义:原子性指一个操作是不可分割的,不可中断的,一个线程在执行时,另一个线程不会影响到他。i < 100;i++) {
2025-02-08 05:00:00
7557
13
原创 【高级架构师】计算机网络基础:第二章 计算机网络体系结构(上)
1、数据链路层在网络体系结构中所处的地位如下图所示:主机H1给主机H2发送数据,中间要经过三个路由器、电话网、局域网、广域网等多种网络。从五层协议原理体系结构的角度来看,主机应该具有体系结构中的各个层次,而路由器只需要具有体系结构中的网络层、数据链路层、物理层。网络中的各个设备通过传输媒体进行互连,主机H1将需要发送的数据逐层封装后通过物理层将构成数据包的各个比特转换为电信号发送到传输媒体,数据包进入到路由器后,从下网上逐层解封到网络层,路由器根据数据包的目的网络地址和自身的转发表。
2025-02-07 05:00:00
8445
62
原创 【高级架构师】计算机网络基础:第二章 计算机网络体系结构(下)
之前课程所介绍的计算机网络体系结构中的物理层、数据链路层以及网络层它们共同解决了将主机通过异构网络互联起来所面临的问题,实现了主机到主机的通信。两个主机进行通信实际上就是两个主机中的应用进程互相通信,应用进程之间的通信又称为端到端的通信。当网络的边缘部分中的两个主机使用网络的核心部分的功能进行端到端的通信时,只有位于网络边缘部分的主机的协议栈才有运输层,而网络核心部分中的路由器在转发分组时都只用到下三层的功能。如何为运行在不同主机上的应用进程提供直接的通信服务是运输层的任务。运输层提供的是应用进程间的。
2025-02-07 05:00:00
8610
36
原创 【自然语言处理(NLP)】Hugging Face 介绍和使用
Hugging Face 是一个专注于自然语言处理(NLP)的开源社区和平台,提供了大量预训练模型和工具,使得开发者能够轻松地使用和微调这些模型。Hugging Face 的核心库是 **Transformers**,它支持多种预训练模型(如 BERT、GPT、T5、RoBERTa 等),并提供了简单易用的 API 来加载、训练和推理
2025-02-06 05:00:00
8686
15
原创 【高级架构师】计算机网络基础:第一章 计算机网络概述
21世纪的一些重要特征就是数字化、网络化和信息化,它是一个以网络为核心的信息时代。思考:大家每天最离不开的一件物品是什么?如果没有了网络,没有了互联网,没有了互联网上丰富多彩的信息和应用,人们还会对手机痴迷吗?那我们平时所说的网络到底是什么呢?网络(Network)由若干结点(Node)和连接这些结点的链路(Link)所组成。网络中的结点可以是计算机、集线器、交换机或者路由器等。图1-1多个网络还可以通过路由器互连起来,这样就构成了一个覆盖范围更大的计算机网络。这样的网络称为。
2025-02-06 05:00:00
8826
12
原创 【自然语言处理(NLP)】生成词向量:ELMo(Embedded from Language Models)原理及应用
ELMo(Embedded from Language Models)是一种深度语境化的词表示方法,由AllenNLP团队于2018年提出。与传统的词嵌入方法(如Word2Vec、GloVe)不同,ELMo能够根据上下文动态生成词向量,从而捕捉到词的多义性和复杂的语言特征
2025-02-05 05:00:00
10032
52
原创 【自然语言处理(NLP)】NLP实战:IMDB影评情感分析项目
*自然语言处理(Natural Language Processing,NLP)**是计算机科学领域与人工智能领域中的一个重要方向。它研究的是人类(自然)语言与计算机之间的交互。NLP的目标是让计算机能够理解、解析、生成人类语言,并且能够以有意义的方式回应和操作这些信息。词法分析:将文本分解成单词或标记(token),并识别它们的词性(如名词、动词等)。句法分析:分析句子结构,理解句子中词语的关系,比如主语、谓语、宾语等。语义分析:试图理解句子的实际含义,超越字面意义,捕捉隐含的信息。语用分析。
2025-02-05 05:00:00
10080
33
原创 【自然语言处理(NLP)】生成词向量:GloVe(Global Vectors for Word Representation)原理及应用
GloVe(Global Vectors for Word Representation)是一种用于获取词向量的无监督学习算法,由斯坦福大学的Jeffrey Pennington、Richard Socher和Christopher D. Manning于2014年提出。GloVe通过结合全局统计信息和局部上下文信息来生成词向量,旨在捕捉词语之间的语义关系。## 核心思想GloVe的核心思想是利用词与词之间的共现概率来捕捉语义信息。具体来说,GloVe通过构建一个共现矩阵(co-occurrence
2025-02-04 05:00:00
11010
25
原创 【自然语言处理(NLP)】学习词向量(word embeddings)和文本分类:fastText模型原理
**fastText** 是由 Facebook AI Research (FAIR) 开发的一种高效的自然语言处理(NLP)模型,主要用于学习词向量(word embeddings)和文本分类。fastText 的核心思想是通过引入子词(subword)信息来改进词向量的表示,特别适合处理形态丰富的语言(如德语、土耳其语等)和未登录词(out-of-vocabulary words)。
2025-02-04 05:00:00
10559
12
原创 【自然语言处理(NLP)】Word2Vec 数据集整理(Skip-Gram模型)
**Word2Vec** 是一种广泛应用于自然语言处理(NLP)的算法,用于生成**词向量**(Word Embeddings),即将词语映射到一个连续的向量空间中。这些词向量能够捕捉词语之间的语义关系,使得语义相近的词语在向量空间中的位置也相近。Word2Vec 由 Google 的研究团队(Tomas Mikolov 等人)于 2013 年提出。
2025-02-03 05:00:00
10531
13
原创 【自然语言处理(NLP)】Word2Vec 训练与应用(Skip-Gram模型)
**Word2Vec** 是一种广泛应用于自然语言处理(NLP)的算法,用于生成**词向量**(Word Embeddings),即将词语映射到一个连续的向量空间中。这些词向量能够捕捉词语之间的语义关系,使得语义相近的词语在向量空间中的位置也相近。Word2Vec 由 Google 的研究团队(Tomas Mikolov 等人)于 2013 年提出。
2025-02-03 05:00:00
10415
12
原创 【自然语言处理(NLP)】基于Transformer架构的预训练语言模型:BERT 训练之数据集处理、训练代码实现
【自然语言处理(NLP)】基于Transformer架构的预训练语言模型:BERT 训练之数据集处理、训练代码实现
2025-02-02 05:00:00
11466
18
原创 【自然语言处理(NLP)】Word2Vec 原理及模型架构(Skip-Gram、CBOW)
**Word2Vec** 是一种广泛应用于自然语言处理(NLP)的算法,用于生成**词向量**(Word Embeddings),即将词语映射到一个连续的向量空间中。这些词向量能够捕捉词语之间的语义关系,使得语义相近的词语在向量空间中的位置也相近。Word2Vec 由 Google 的研究团队(Tomas Mikolov 等人)于 2013 年提出。
2025-02-02 05:00:00
11209
12
原创 【自然语言处理(NLP)】深度学习架构:Transformer 原理及代码实现
核心组件- **[多头注意力机制(Multi-Head Attention)](https://blog.csdn.net/u014608435/article/details/145363310)** - **原理**:将输入的向量表示通过多个头(head)的注意力机制,并行地计算不同位置之间的依赖关系,从而捕捉到更丰富的语义信息。每个头都可以关注输入序列的不同部分,然后将这些头的结果进行拼接和线性变换,得到最终的输出。 - **公式**:$MultiHead(Q,K,V)=Concat
2025-02-01 05:00:00
11785
19
原创 【自然语言处理(NLP)】基于Transformer架构的预训练语言模型:BERT 原理及代码实现
模型架构- **基于Transformer编码器**:BERT仅使用Transformer的编码器部分,其多层双向Transformer编码器允许模型在处理每个单词时,同时考虑该单词的左右上下文信息,从而生成深度的双向语言表征。- **多层结构**:基础版本的BERT有12层Transformer编码器层,而BERT - Large有24层,层数越多,模型的表达能力越强,但计算量也越大。
2025-02-01 05:00:00
11991
13
【自然语言处理(NLP)】基于Transformer架构的预训练语言模型:BERT 训练之数据集处理
2025-01-28
【自然语言处理(NLP)】机器翻译之数据处理(数据收集、数据清洗、数据分词、数据标注、数据划分)
2025-01-23
Nacos 是阿里巴巴开源的一个动态服务发现、配置管理和服务管理平台,旨在帮助开发者更轻松地构建、部署和管理微服务架构 它整合了服务注册与发现、配置管理以及分布式协调等功能,为云原生应用提供了统一的解
2024-12-16
年会抽奖小平台,点开即用 在lottery.js文件中搜索:技术部,修改此处即可 有多少人就设置多少个元素
2024-12-16
有没有做过外汇交易MetaTrader 4平台相关业务的
2024-12-25
TA创建的收藏夹 TA关注的收藏夹
TA关注的人