自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(46)
  • 收藏
  • 关注

原创 Bert Score-文本相似性评估

Bert Score 是基于BERT模型的一种方法。它通过计算两个句子在BERT模型中的嵌入编码之间的余弦相似度来评估它们的相似度。BERTScore考虑了上下文信息和语义信息,因此能够更准确地衡量句子之间的相似度。

2024-09-27 11:06:41 514

原创 LORA DASH -一种更高效的微调方式

大型语言模型(LLMs)通过在大规模数据集上的预训练,能够捕捉和学习丰富的语言特征和模式。目前,尽管预训练模型在诸多任务上取得了显著的成果,但它们在特定任务上的表现仍有提升空间。为了进一步提升模型的性能,研究者们通常采用微调(Fine-tuning)的方法,即在预训练的基础上,针对特定任务继续训练模型。微调过程虽然有效,但也带来了显著的资源消耗问题。尤其是对于包含数十亿甚至数千亿参数的大型模型,全参数微调需要巨大的计算资源和内存消耗。

2024-09-24 18:00:27 782

原创 OpenAI o1 System Card 中文浓缩版

o1 模型系列通过大规模强化学习进行训练,以使用思维链进行推理。这些高级推理功能为提高模型的安全性和稳健性提供了新的途径。特别是,我们的模型可以在响应可能不安全的提示时根据上下文推理我们的安全策略。这导致在某些风险基准测试上具有最先进的性能,例如生成非法建议、选择刻板的响应以及屈服于已知的越狱。在回答之前,训练模型整合一条思维链有可能带来巨大的好处,同时也会增加因智力提高而产生的潜在风险。我们的结果强调了构建稳健的对齐方法、广泛压力测试其有效性并维护细致的风险管理协议的必要性。

2024-09-14 15:31:17 394

原创 PLANSEARCH——搜索正确的思路,然后实现它!CursorAI编码能力提升的核心

这样一来,所有观察结果的集合都可以定义为深度为 1 的有向树,其中根节点为 P,并且每个 C^1_i 都有一条从 P 指向 C^1_i 的边。为了得到二阶观察,该团队的做法是在给模型的提示词中包含原始问题 P 和 C^1_i 中包含的所有观察 —— 这些观察被构造为解决 P 所必需的原始观察。为了提升多样性,对于每个生成的思路,该团队通过假设该思路是错误的来生成一个额外的思路,并要求 LLM 给出批评 / 反馈,从而将提议的思路翻倍了。这种情况下,即使模型花费更多推理时间,也难以获得更好的搜索结果。

2024-09-12 10:55:48 567

原创 Liunx 操作系统与常用指令

本文总结在Linux操作系统中常用到的操作命令以及命令的具体应用示例。

2024-09-09 09:46:06 357

原创 吊打Github Colpliot! Cursor 最新AI辅助编程工具特色功能总结

本文介绍了一款名为Cursor的智能代码编辑器,它结合GPT3.5和4.0功能,帮助编程新手快速学习和提升技能。虽然起初免费,但后来因运营成本调整为部分收费。

2024-09-06 14:03:32 218

原创 大模型(LLM)内部工作流程可视化

直观的了解大模型的工作原理对大模型开发十分重要,今天给大家介绍一个来自佐治亚理工学院和 IBM 的研究人员研发的一个的Transformer可视化工具。这个工具可以让我们可以全面了解变压器内部发生的情况。它专为交互式使用而设计,可以直接从我们的浏览器了解 Transformer 模型的工作原理,尤其是使用 GPT-2 模型同时还可以自定义文本来尝试,并实时观看 Transformer 的内部组件和操作协同工作以预测下一个单词。

2024-09-04 11:48:31 932

原创 LLM训练成本计算指南(手搓版)

在大模型训练的过程中,提前预估训练所需要的训练资源是十分有必要的,基于transformer结构的语言模型这些都是可以通过计算来进行估计的。这篇bolg就是主要围绕这个问题来进行展开。

2024-08-31 11:11:51 672

原创 (最全)入门级-LLM调教指北

变换器架构是由Vaswani等人在其著名的论文《Attention Is All You Need》中引入的,我们在这里不会深入讨论架构的具体细节,因为那将涉及到讨论所有导致并促成其创建的旧技术。变换器使我们能够训练具有惊人推理能力的大型语言模型(LLMs),同时保持架构的简洁,足以让机器学习新手开始训练/尝试。对于语言建模来说,最常见的架构就是transformer架构。变换器允许我们以一种非常高效的方式处理数据,它使用注意力机制来加强模型对输入数据序列中不同部分之间关系的学习能力。

2024-08-23 23:13:34 765

原创 深度学习中常用概念总结

上下文并行大小可能是指在使用特定深度学习框架时,如 Megatron-LM 中的设置,用于控制跨多个 GPU 分配模型的不同部分的方式。微批处理大小是在模型并行或流水线并行中使用的概念,指的是在每个 GPU 或每个并行阶段中处理的批次大小。张量模型并行大小是指在模型并行中,模型的张量如何分配到不同的处理器上。它影响计算资源的利用和模型训练的稳定性。在深度学习中,词大小通常指的是模型中词嵌入(Word Embedding)的维度,即表示每个词的向量的长度。步数(Steps)通常指的是训练过程中的迭代次数。

2024-08-08 18:25:32 407

原创 Ubuntu虚拟机扩容笔记(各种方法都不行版)

最近需要对ubuntu的虚拟机下面的挂载根目录上的文件系统对应的硬盘进行扩容,在虚拟机管理平台对磁盘进行扩容后,在图形界面上尝试扩容:尝试教程主要采用下面教程的第三种方法:Ubuntu22.04 Linux磁盘扩容/硬盘扩展全过程(包括踩坑过程)_ubuntu2022 扩展硬盘空间-CSDN博客ubuntu虚拟机磁盘扩容硬盘扩展。_ubuntu2022 扩展硬盘空间。

2024-07-30 16:54:21 426

原创 Nvidia GPU驱动安装报错显卡与驱动不兼容(本身兼容)

我们公司的服务器是按照 硬件服务器-->PVE(虚拟化管理平台类似于Vmvare)-->虚拟机--> 显卡-->驱动-->操作系统-->软件这样搞的。所以这个问题的关键就是不在于重启虚拟机,而在于直接重启节点。也就是下面节点的chat节点,而不是102 这台机子。开机在开机日志之中显示:显卡与驱动版本不匹配。这里是由于公司本身的服务器搭建架构的问题。重启chat节点之后就可以,就可以显示显卡驱动正常了!今天写个帖子,希望可以帮到和我遇到相似问题的同学!

2024-07-27 16:10:02 377

原创 升级Nvidia CUDA 遇到 sub-process /usr/bin/dpkg returned an error code (1)

我的主要原因是:在尝试安装 CUDA 时,包管理器发现依赖关系问题,特别是与 NVIDIA 驱动程序包有关的版本冲突。报错:sub-process /usr/bin/dpkg returned an error code (1)在自己Ubuntu22.04的服务器环境上存在cuda版本为11.5,按照官网教程升级为12.1运行安装命令。

2024-07-22 17:34:41 864

原创 Ubuntu22.04安装NIVIDIA显卡驱动总结

但是有时候.deb可能只是一个本地仓库包,会用于添加或者更新软件的仓库信息。并不能直接安装软件。比如nvidia的驱动就是个例子。需要独立用apt install 安装。3. 在官网上确定之后,可以直接下载对应的安装包。文件后缀默认为deb格式。4.安装deb包成功之后可以使用下面命令安装nvidia驱动。1.首先在安装驱动时需要判断系统有无GPU以及GPU的型号。.deb 文件格式让软件安装和更新变得非常容易。设定软件如何运作的参数。软件运行所需的依赖项。实际运行的软件程序。

2024-07-11 14:26:14 2174

原创 Anaconda 安装与基本使用总结

最近需要在服务器上安装和使用aconada,发现之前总是在网上找教程,每次都要找,很麻烦。这次就自己写一个安装笔记。以备日后使用。

2024-07-10 23:30:00 1086

原创 视觉语言模型:融合视觉与语言的未来

视觉语言模型(Vision-Language Models, VLMs)是能够同时处理和理解视觉(图像)和语言(文本)两种模态信息的人工智能模型。这种模型结合了计算机视觉和自然语言处理的技术,使得它们能够在视觉问答、图像描述生成、文本到图像搜索等复杂任务中表现出色。它是将transformer架构应用到计算机视觉领域的成功案例。具体来说就是将传统CNN中图像特征提取的全局替换为注意力机制。视觉语言模型在多个领域展示了巨大的潜力,包括图像检索、生成式AI、图像分割、医疗诊断和机器人技术。

2024-07-06 16:39:23 1293

原创 垂直领域大模型微调最全指南

一年来多以来,大语言模型发展和变化越来越快,总体呈现出模型尺寸越变越大,算力需求越来越多,模型推理要求越来越高的特点。在这种背景下,现在不同的人关于垂域 LLM 出现了一些争议,一部分人认为随着大模型的能力越来越强,垂类的知识会加训融合到大模型。尤其当下,在 GPT-4o 效果一枝独秀的前提下,其他无论是通用模型,还是基于垂类模型都被 GPT-4o 吊打,一个典型的对比就是 GPT-4o 加持的Code Colpliot的代码能力一点都不逊色与Devins等智能体工程师。

2024-06-17 18:46:44 3297 1

原创 SHL逻辑测试最全攻略-复盘系列

SHL是Saville & Holdsworth Limited(现在的Cubiks)的缩写,是一家专门从事人才评估和发展的咨询公司。他们开发了各种类型的测验,包括逻辑推理测试,用于评估候选人的认知能力和思维方式。逻辑测试通常包括一系列的问题或情境,要求测试者根据已知信息推断未知情况或解决特定的问题。这些问题可能涉及数字、图形、词汇或符号等不同类型的信息,以考察测试者的推理、分析和判断能力。本人感觉是在面试过程中完全第一次接触到这种题目去作答的话难度还是很大。因此针对性的练习技巧和手感很重要。

2024-06-08 17:49:57 1755 1

原创 智慧营销的未来:中国AIGC技术的演进与应用 #未来是现在的趋势#

在中国,这种技术不仅仅是一种新的内容生产方式,更是一种全新的技术革命,它降低了内容生产的门槛,提升了生产效率,使得个体和企业都能以更低的成本创造丰富多彩的内容。随着人工智能(AI)技术的蓬勃发展,尤其是在营销技术(MarTech)领域,AIGC(AI Generated Content)技术在中国市场的应用和影响日益显著。2023年,中国在AIGC的发展和应用上已经取得了显著的进步,本文将深入分析AIGC在营销领域的应用现状及其未来的发展潜力。三、AIGC技术在营销领域的具体应用。

2024-05-09 21:08:08 499 1

原创 semantic-kernel 国内代理的配置(详细教程)

Semantic Kernel 是微软提供的一个工具,旨在帮助开发者快速、轻松地将最新的大型语言模型(LLM)技术集成到应用程序中。这意味着通过使用Semantic Kernel,开发者可以在他们的应用中加入先进的人工智能和自然语言理解能力,从而增强应用的功能性。

2024-02-15 13:52:04 843

原创 open ai api 国内配置代理指南(网上最全)

open ai 作为这一波AI浪潮的推动者,opne ai的gpt 系列产品在使用和体验上绝对是最强大的,现在对于开发者来说要在代码中访问open ai api是不可用的。所以本文就主要解决这个问题。,所以你买了GPT4的会员也没有访问api的权限,需要自己去open ai开发者网站上充钱。目前最可靠的方式主要有以下三种!

2024-02-15 13:50:52 13824

原创 Git 工具出现克隆库失败详解

错误字符串:git unable to access xxx: Encountered end of。

2023-07-13 16:56:26 2748

原创 JupyterNoteboook输入大量警告信息

有时候使用jupyter notebook输出结果时会产生大量的警告信息,导致查看最后结果很不方便就像下面这样!

2023-05-04 10:16:38 322 1

原创 GIT-常见错误和解决办法总结

*****************************************************************************************问题:OpenSSL SSL_read: Connection was reset, errno 10054show:解决办法:解除SSL验证,在命令行中输入:************************************************************************************

2023-05-03 22:44:05 615

原创 kaggle最全基础入门(大数据)

Kaggle是一个数据科学竞赛平台,旨在连接数据科学家和机器学习工程师,提供一个共同解决实际问题的平台。Kaggle的任务通常由公司、学术机构、政府机构等提交,这些任务涵盖了各种问题领域,例如自然语言处理、计算机视觉、数据挖掘等。竞赛参与者可以下载数据集、提交代码和模型,并与其他参赛者交流和竞争。Kaggle还提供了一系列的教程和社区资源,帮助人们学习和分享数据科学的最佳实践。

2023-04-26 22:55:43 4572

原创 NeevaAI人工智能搜索引擎来了

无跟踪。没有偏见。搜索不受企业影响-这是Neeva的标语。Neeva是一款订阅制搜索引擎,是一款很小众的的搜索引擎,由前Google高管Sridhar Ramaswamy创立。Neeva的目标是为用户提供更好的搜索体验,通过减少广告和提供更有用的搜索结果实现这一目标。NeevaAI则是Neeva推出的搜索AI助手。NeevaAI是一款基于AI技术的新型智能搜索引擎,结合了最先进的大型语言模型(LLM)和独立的搜索技术,为用户提供了一个独特而变革性的搜索体验。

2023-04-24 23:42:38 701

原创 史上最详细使用copliot AI保姆级教程来了

Copilot 是一款由 OpenAI 推出的人工智能代码自动补全AI工具,它可以帮助程序员更快、更准确地编写代码。Copilot 的核心技术基于 GPT-3 模型,但是在编码方面是优于GPT-3的,它可以根据程序员输入的上下文和代码提示,自动生成符合语法和逻辑的代码片段。使用 Copilot 可以大大提高编写代码的效率和准确性,同时也可以降低编写代码的难度和工作量。Copilot 的使用非常简单,只需要在编写代码的时候输入一些关键字或者代码提示,Copilot 就可以自动为你生成符合要求的代码。

2023-04-20 13:05:33 158443 1

原创 DATABSE&MYSQL面试题汇总(2023)

数据库是一个组织数据的集合,它是现代数据应用程序的核心,为应用程序提供了一种有效地存储和访问数据的方式。在IT岗位的面试里数据库的有些问题是不必可少会问到的,最近上网找了许多资料,发现很杂乱。于是就想总结一下最近这段时找的资料,形成一个系统化的数据库和MYSQl的面试题库。这篇文章主要回答比较深入又容易问道的问题。其他简单问题比如事务的四大特性这些的不做讨论。

2023-04-10 11:51:09 425

原创 大数据开发需要知道的-面试(2023)

大数据体系从业务处理的角度看,可以分为一下几个层面:数据采集和存储:这个阶段主要涉及数据的采集、传输和存储。常见的数据采集方式包括:日志收集、传感器数据、社交媒体数据等。数据存储技术包括传统的关系型数据库,以及更适合大数据的 NoSQL 数据库和分布式文件系统,如MongoDB等。数据处理和分析:这个阶段主要用于对采集到的数据进行处理和分析。常见的大数据处理框架包括等。这些框架可以帮助处理大量的数据,并提供一些高级分析功能,如机器学习、图像处理、自然语言处理等。

2023-04-08 15:24:43 267

原创 NLP有整活了!!!

M2M-100的发布引起了广泛的关注,它可以为全球范围内的企业和组织提供更好的跨语言沟通和交流能力。这一技术可以为许多领域提供更好的跨语言沟通和交流能力。例如,在商业活动中,一家跨国公司可以使用M2M-100将不同国家的员工之间的邮件和聊天记录进行翻译,从而提高效率和准确性。此外,机器翻译仍然无法完全取代人类翻译的需求,因为在某些情况下,仍然需要人类的语言能力和文化背景知识来进行翻译。这意味着,M2M-100可以直接将一种语言翻译成另一种语言,而不需要通过中间语言进行转换,从而提高翻译的准确性和效率。

2023-04-01 22:03:58 180

原创 爬虫复习与拓展2

selenium-python中文文档 (python-selenium-zh.readthedocs.io)3.最经典的方法:request和beatuiful-soup来复杂请求和解析。4.最老的方法:urllib3----上世纪的东西,对于学习有用。8.其他的还有专门用来爬取特定内容的框架比如爬取文章图片等。完善:mechanize是另一种爬虫框架是可以加载JS的。完善:大佬可以尝试改变它的源码来解决这个功能。缺点:但是对于稍微复杂一点的页面它就不得行了。缺点:复杂的js动态加载数据是不能处理的。

2023-01-12 11:01:45 212

原创 python中的那些“骚”操作

你要用python写一些比较大的代码,变量,函数,类怎么命名,变量放在什么地方,什么时间赋值,什么时间销毁这些都是一些小细节。类名的第一个字母大写, 强调它是一个类, 而不是类的实例。函数之间或类的方法之间用空行分隔,表示一段新的代码的开始。2.类的方法与普通的函数只有一个特别的区别——它们必须有一个额外的第一个参数名称, 按照惯例它的名称是 self。1.类的思想:希望有大量密切相关的函数适用于一种常见的数据结构。键一般是唯一的,如果重复最后的一个键值对会替换前面的,值不需要唯一。

2023-01-11 15:35:55 181

原创 hadoop一周速成记

Hadoop的MapReduce和HDFS均采用Java进行实现,默认提供Java编程接口,如果要用其他语言来实现MR编程就需要Hadoop提供的一个框架Streaming,Streaming的原理是用Java实现一个包装用户程序的MapReduce程序,该程序负责调用hadoop提供的Java编程接口。HDFS 命名节点对数据节点的远程控制是通过 SSH 来实现的,因此关键的配置项应该在命名节点被配置,非关键的节点配置要在各个数据节点配置。也就是说用它做的事情的逻辑不会很复杂,但是就是太多。

2023-01-05 11:02:18 259

原创 LUNXI 一周速成记

Linux的ext2,ext3,ext4(目前ext3格式的用的比较多,ext4还在实验之中,在新的Fedora上使用的就是ext4的文件系统)。由于/etc/passwd文件是所有用户都可读的,如果用户的密码太简单或规律比较明显的话,一台普通的计算机就能够很容易地将它破解,因此对安全性要求较高的Linux系统都把加密后的口令字分离出来,单独存放在一个文件中,这个文件是/etc/shadow文件。分区是将一个硬盘驱动器分成若干个逻辑驱动器,分区是把硬盘连续的区块当做一个独立的磁硬使用。,格式化是什么意思?

2023-01-01 11:35:38 440

原创 ubantu+hadoop+spark+scale分布式数据分析框架搭建

ubantu+hadoop+spark+scale分布式数据分析框架搭建

2022-11-26 12:13:24 2259 1

原创 正则表达式学习笔记

正则表达式和python

2022-11-20 15:15:44 194

原创 学习数据分析三剑客之心得体会

写在前面:好久没写blog了,每天总是感觉过的好快,忙的但也不知道忙啥,最近刚好好学习了NUMPY PANDAS MATPLLTLY 三贱客,所以决定忙里偷闲记录一下自己的心得。# NUMPYnumpy其实就是python中列表的结构,多层列表也可以完全表示ndarray这种概念哇。但是为什么他就被那么多人所追捧呢?-----那就是索引,提取数据方便。其他的也没啥,你说你搞个1000维的数据嘛谁也不懂,最后还不是要降为到3维或者2维上进行处理。人类永远理解不了他们之外的东西。世界是3维的,顶

2022-11-18 16:40:31 289

原创 随机森林的的那些事

集成多棵决策树的一种算法。将一个输入样本进行分类,将它输入到每棵树中进行分类。将产生的若干个分类结果进行投票选择,从而组成一个强分类器,得出结果3.1随机: (1)随机且有放回地从训练集中的抽取N个训练样本(2)则在每个节点分裂的时候,从M中随机选择m个特征3.2:森林:多棵树在一起就组成了森林最关键的就在于每个节点分裂的时候,选择m个特征,m到底是多少呢?评价标准:袋外错误率python的scikit-learn库已经实现,但是自己造轮子也是可以的。里面有:RF分类器(RandomForestCl

2022-08-07 22:23:06 352

原创 新手数据分析看这篇就足够了----pandas库总结

那些pandas100%会遇到的问题

2022-07-19 22:15:25 213

原创 python可以用那些技术来实现爬虫?这里就有

最近学习了用python语言写的爬虫,在惊叹于python强大的同时,也感觉到IT 开发人员是世界上最可爱的人。他们用最大的爱心去丰富IT的世界,虽然他们时间和精力有限,但是他们让他们发着光,发着亮,来照亮着新世界。在这里我就对python爬虫进行一个系统的阐述,介绍其python丰富的爬虫实现方法。1.爬虫的原理爬虫就是追寻着url,不断地进行请求,并且解析获得的相应,获得自己需要的数据的一种技术。2.python丰富的爬虫库获取请求的库:urllib库(最原始的一个库,官方解释功

2022-03-03 18:19:51 1089

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除