半度、
码龄6年
关注
提问 私信
  • 博客:151,451
    社区:1
    问答:151
    动态:5
    151,608
    总访问量
  • 79
    原创
  • 17,865
    排名
  • 632
    粉丝
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2018-10-18
博客简介:

weixin_43457608的博客

查看详细资料
  • 原力等级
    领奖
    当前等级
    4
    当前总分
    790
    当月
    0
个人成就
  • 获得741次点赞
  • 内容获得41次评论
  • 获得2,320次收藏
  • 代码片获得724次分享
创作历程
  • 38篇
    2024年
  • 4篇
    2023年
  • 2篇
    2022年
  • 9篇
    2021年
  • 30篇
    2020年
成就勋章
TA的专栏
  • 大模型
    14篇
  • 杂项
    31篇
  • 机器学习
    10篇
兴趣领域 设置
  • 大数据
    flink
  • 人工智能
    opencv语音识别计算机视觉机器学习深度学习神经网络自然语言处理tensorflowpytorch图像处理nlp数据分析
创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

175人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

【论文速读】BPE算法

在NLP 中,2015年Sennrich 通过论文Neural Machine Translation of Rare Words with Subword Units将这个算法使用在生成Tokenizer的词表上,做法是先将每个文本词(Word)拆分成 Char粒度的字母序列,然后通过迭代地合并最频繁出现的字符或字符序列来实现生成Tokenizer最终词表的过程。4.统计每一个连续字节对的出现频率,选择最高频的字符对合并成新的subword;1.准备足够大的训练语料,确定期望的subword词表大小;
原创
发布博客 2024.10.23 ·
335 阅读 ·
5 点赞 ·
0 评论 ·
7 收藏

超好用的python标准库——pathlib

以上都是比较常用的操作,更多操作请看官方文档,作对比后个人感觉确实比os操作简便很多。
原创
发布博客 2024.10.17 ·
255 阅读 ·
3 点赞 ·
0 评论 ·
2 收藏

Torch常用函数

kernel_size(int or tuple) - 卷积核的尺寸,卷积核的大小为(k,),第二个维度是由in_channels来决定的,所以实际上卷积大小为kernel_size*in_channels。当输入是一个多维张量时,返回的是同等维度的张量并且最后两个维度的下三角矩阵的。nn.Parameter的对象的requires_grad属性的默认值是True,即是可被训练的,这与torth.Tensor对象的默认值相反。unsqueeze(1):扩容一个维度为1的维度(3,2)→(3,1,2)
原创
发布博客 2024.10.16 ·
1034 阅读 ·
19 点赞 ·
0 评论 ·
21 收藏

大模型微调

基于离散提示方法 [238, 239],它通过包含一组软提示 token(以自由形式 [236] 或前缀形式 [230])来扩充输入文本,然后将扩充后的输入用于解决特定的下游任务。在上文中,我们讨论了指令微调和对齐微调的方法,以使 LLM适应特定的目标。但是, 这些模型有时可能表现出预期之外的行为,例如编造虚假信息、追求不准确的目标,以及产生有害的、误导性的和有偏见的表达。但是, 这些模型有时可能表现出预期之外的行为,例如编造虚假信息、追求不准确的目标,以及产生有害的、误导性的和有偏见的表达。
原创
发布博客 2024.10.14 ·
1633 阅读 ·
47 点赞 ·
0 评论 ·
13 收藏

【论文速读】LoRA:Low-rank adaptation of large language models

自然语言处理的一个重要范例包括对一般领域数据进行大规模的预训练和对特定任务或领域的适应。当我们对更大的模型进行预训练时,重新训练所有模型参数的完全微调就变得不那么可行了。以GPT-3 175B为例——部署微调模型的独立实例,每个模型都有175B参数,这是非常昂贵的。我们提出了Low-Rank Adaptation,或称LoRA,它冻结了预先训练的模型权值,并将可训练的秩分解矩阵注入变压器架构的每一层,大大减少了下游任务的可训练参数的数量。
原创
发布博客 2024.10.14 ·
902 阅读 ·
21 点赞 ·
0 评论 ·
11 收藏

【论文速读】P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales andTasks

提示调优),即只使用冻结的语言模型来调优连续的提示,它大大减少了训练中每个任务的存储和内存使用。然而,在NLU的背景下,先前的工作表明,提示调优对于正常大小的预训练模型表现不佳。我们还发现,现有的提示调优方法不能处理硬序列标记任务,这表明缺乏通用性。我们提出了一个新的经验发现,即适当优化的提示调优可以在广泛的模型尺度和NLU任务中普遍有效。它与微调的性能相匹配,而只有0.1%-3%的调整参数。
原创
发布博客 2024.10.14 ·
548 阅读 ·
12 点赞 ·
0 评论 ·
20 收藏

【论文速读】P-Tuning:GPT Understands, Too

用自然语言模式Prompting(提示)预先训练的语言模型已被证明对自然语言理解(NLU)是有效的。然而,我们的初步研究表明,手动离散prompts(提示)往往会导致性能不稳定——例如,在提示中改变一个单词可能会导致性能的显著下降。我们提出了一种新的P-Tuning微调方法,该方法采用了可训练的连续prompt(提示)embeddings与离散prompts连接。
原创
发布博客 2024.10.14 ·
1199 阅读 ·
27 点赞 ·
0 评论 ·
13 收藏

【论文速读】Prompt Tuning:The Power of Scale for Parameter-Effificient Prompt Tuning

在这项工作中,我们探索了“prompt tuning(提示调优)”,这是一种简单而有效的机制,用于学习“soft prompts(软提示)”,以条件下冻结的语言模型来执行特定的下游任务。**与GPT-3使用的离散文本提示不同,软提示是通过反向传播来学习的,并且可以进行调优,以合并来自任意数量的标记示例的信号。**我们的端到端学习方法比GPT-3的少量镜头学习效果更好。
原创
发布博客 2024.10.14 ·
988 阅读 ·
16 点赞 ·
0 评论 ·
29 收藏

【论文速读】Prefix-Tuning: Optimizing Continuous Prompts for Generation

微调实际上是利用大型预训练过的语言模型来执行下游任务的一种方法。但是,它会修改所有的语言模型参数,因此需要为每个任务存储一个完整的副本。在本文中,我们提出了Prefix-Tuning(前缀调优),这是一种针对自然语言生成任务的轻量级替代方法,它可以保持语言模型参数冻结,但优化了一个连续特定任务的小向量(称为前缀)。前缀调优从prompting(提示)中获得灵感,允许后续的令牌像关注“虚拟令牌”一样关注这个前缀。
原创
发布博客 2024.10.14 ·
1221 阅读 ·
21 点赞 ·
0 评论 ·
18 收藏

【论文速读】Adapter tuning:Parameter-Effificient Transfer Learning for NLP

对大型预训练模型进行微调是自然语言处理中一种有效的传递机制。然而,在存在许多下游任务的情况下,微调是参数效率较低的:每个任务都需要一个全新的模型。**作为一种替代方案,我们建议使用适配器模块进行传输。适配器模块产生一个紧凑和可扩展的模型;它们每个任务只添加一些可训练参数,可以添加新的任务而无需重新访问以前的任务。原网络的参数保持不变,产生了高度的参数共享。**为了证明适配器的有效性,我们将最近提出的BERT变压器模型转移到26个不同的文本分类任务中,包括GLUE基准测试。
原创
发布博客 2024.10.14 ·
955 阅读 ·
5 点赞 ·
0 评论 ·
5 收藏

【论文速读】DDIM:DENOISING DIFFUSION IMPLICIT MODELS

因为DDPM是遵循马尔可夫过程的,下一时刻状态取决上一时刻状态。DDIM经过变换后,让前向加噪过程成立的同时,去噪过程可以不遵循马尔可夫过程,将T=1000的序列,采样L序列(远小于T),加速推理。
原创
发布博客 2024.09.29 ·
286 阅读 ·
3 点赞 ·
0 评论 ·
0 收藏

UnicodeDecodeError: ‘ascii‘ codec can‘t decode byte 0x81 in position 1224: ordinal not in range(128)

博主拿到了python2的代码,想改成python3读取pickle文件中的内容,遇到编码问题。添加encoding=“iso-8859-1”
原创
发布博客 2024.09.25 ·
227 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Python命令行库对比

原文链接
原创
发布博客 2024.09.24 ·
160 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Poetry超好用python依赖、包管理工具

Poetry 用一个pyproject.toml 代替 setup.py, requirements.txt, setup.cfg, MANIFEST.in and Pipfile文件。用过vue的肯定看上去会无比熟悉,类似于package.json文件。
原创
发布博客 2024.09.20 ·
254 阅读 ·
9 点赞 ·
0 评论 ·
1 收藏

【论文速读】DDPM:Denoising Diffusion Probabilistic Models

是一个常量可以忽略。为什么要再加一个噪音暂时没懂。,T长度通常设置为1000。是给定好的一组序列,
原创
发布博客 2024.09.12 ·
288 阅读 ·
3 点赞 ·
0 评论 ·
7 收藏

Agent探索之OpenAI方式调用本地模型(one-api)

OpenAI 接口管理 & 分发系统,支持 Azure、Anthropic Claude、Google PaLM 2 & Gemini、智谱 ChatGLM、百度文心一言、讯飞星火认知、阿里通义千问、360 智脑以及腾讯混元,可用于二次分发管理 key,仅单可执行文件,已打包好 Docker 镜像,一键部署,开箱即用. OpenAI key management & redistribution system, using a single API for all LLMs, and features an
原创
发布博客 2024.09.10 ·
446 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

Agent探索之本地大模型推理(Xinference)

Xorbits Inference(Xinference)是一个性能强大且功能全面的分布式推理框架。可用于大语言模型(LLM),语音识别模型,多模态模型等各种模型的推理。通过 Xorbits Inference,你可以轻松地一键部署你自己的模型或内置的前沿开源模型。无论你是研究者,开发者,或是数据科学家,都可以通过 Xorbits Inference 与最前沿的 AI 模型,发掘更多可能。
原创
发布博客 2024.09.10 ·
384 阅读 ·
6 点赞 ·
0 评论 ·
2 收藏

python+etcd服务发现与注册工具类

【代码】python+etcd服务发现与注册工具类。
原创
发布博客 2024.09.06 ·
175 阅读 ·
2 点赞 ·
0 评论 ·
0 收藏

python Timer实现定时器功能(每隔10s执行一次)

【代码】python Timer实现定时器功能(每隔10s执行一次)
原创
发布博客 2024.09.06 ·
266 阅读 ·
2 点赞 ·
0 评论 ·
1 收藏

semantic-kernel调用huggingface本地模型

semantic-kernel主要支持OpenAI和Azure OpenAI,由于国内原因无法使用。想调用本地模型发现资料很少,遂有下文:示例不全,想快速上手推荐直接看仓库代码官方文档:https://learn.microsoft.com/zh-cn/semantic-kernel/get-started/quick-start-guide?下文来自源码库中示例:07-hugging-face-for-plugins.ipynb。
原创
发布博客 2024.08.07 ·
706 阅读 ·
6 点赞 ·
0 评论 ·
15 收藏
加载更多