- 博客(152)
- 资源 (2)
- 收藏
- 关注
原创 LLaMA3(Meta)微调SFT实战Meta-Llama-3-8B-Instruct
LlaMA3-SFT, Meta-Llama-3-8B/Meta-Llama-3-8B-Instruct微调(transformers)/LORA(peft)/推理。
2024-04-29 10:02:07 2880
原创 Qwen2(Qwen1.5阿里)微调实战qwen1.5-7b
Qwen1.5-SFT(阿里, Ali), Qwen_Qwen1.5-2B-Chat/Qwen_Qwen1.5-7B-Chat微调(transformers)/LORA(peft)/推理。
2024-04-02 18:46:58 2947
原创 near-synonym, 中文反义词/近义词(antonym/synonym)工具包
near-synonym, 中文反义词/近义词(antonym/synonym)工具包.
2024-03-15 19:57:21 996
原创 Gemma谷歌(google)开源大模型微调实战(fintune gemma-2b/7b)
Gemma-SFT(谷歌, Google), gemma-2b/gemma-7b微调(transformers)/LORA(peft)/推理。
2024-02-26 15:58:08 4265 7
原创 国内外各ChatGPT类语言大模型API价格汇总, 对比,ChatGPT/Gmini/PaLM/Clude/Ernie/ChatGLM/千问/混元/星火/Minimax/百川
2023年,国内外的IT公司大都发布了自己的类ChatGPT语言大模型,有种“百模大战”的味道。至2024.01.01, 收录的有, ChatGPT/Gmini/PaLM/Clude/Ernie/ChatGLM/Qwen/Hunyuan/星火/Minimax/Baichuan
2024-02-23 19:03:02 3314 2
原创 汉字字形/拼音/语义相似度(单字, 可用于数据增强, 特别是文本纠错csc)
汉字字形/拼音/语义相似度(单字, 可用于数据增强, CSC错别字检测识别任务(构建混淆集))
2024-02-21 09:46:25 573
原创 pytorch-textregression,中文文本回归实践,支持多值输出
pytorch-textregression是一个以pytorch和transformers为基础,专注于中文文本回归的轻量级自然语言处理工具,支持多值回归等。
2024-02-20 16:31:46 686
原创 pytorch-textsummary,中文文本摘要实践
pytorch-textsummary是一个以pytorch和transformers为基础,专注于中文文本摘要的轻量级自然语言处理工具,支持抽取式摘要等。
2024-02-20 16:24:26 1479 1
原创 chatglm3-6b微调实战
chatglm3-6b, chatglm-3b微调/LORA/推理/单机多卡/deepspeed/支持多轮对话。
2023-12-04 10:47:20 1719
原创 LLM-SFT,新微调数据集-MWP-Instruct(多步计算 + 一、二元方程),微调Bloom, ChatGLM, LlaMA(支持QLoRA, TensorBoardX)
中文大模型微调(LLM-SFT), 支持模型(ChatGLM, LlaMA, Bloom), 支持(LoRA, QLoRA, DeepSpeed, UI, TensorboardX), 支持(微调, 推理, 测评, 接口)等.
2023-06-12 23:00:54 1128
原创 python3写一个http接口服务(get, post),给别人调用6-sanic
近年来异步web服务器比较火热,例如falcon/bottle/sanic/aiohttp,今天也来玩玩sanic。Sanic是一个支持Python 3.7+的web服务器和web框架,速度很快。它允许使用Python 3.5中添加的async/await语法,无阻塞且快。Sanic也符合ASGI,目标是提供一种简单的方法来建立和运行一个高性能的HTTP服务器,该服务器易于构建、扩展。
2023-06-09 10:29:11 3089
原创 大模型 LLM 综述, A Survey of Large Language Models
一般认为NLP领域的大模型>=10 Billion参数(也有人认为是6B、7B, 工业界用, 开始展现涌现能力);经典大模型有GPT-3、BLOOM、Flan-T5、GPT-NeoX、OPT、GLM-130B、PaLM、LaMDA、LLaMA等;大模型时间线, 图来自,下同。
2023-06-08 10:29:53 2967
原创 不乱码、下载 Transformers 模型 (抱抱脸、model)
目的: 因为需要对预训练模型等做一些查看、转移操作,不想要乱码,不想频繁下载模型等;
2023-04-13 17:11:46 2034
原创 国产开源类ChatGPT模型,ChatGLM-6b初步微调实验
chatglm-6b微调/推理, 样本为自动生成的整数/小数加减乘除运算, 可gpu/cpu。
2023-03-22 11:07:14 8795 6
原创 python3写一个http接口服务(url, get, post),接口限流、拒绝访问
接口限流(rate-limit),笔者最近工作中,遇到提供给客户的算法微服务,遇到大量请求挂掉了,除了扩容负载均衡外,也采取了限流的方式。一般来说,常见的接口限流,我们可以采用。
2023-02-28 18:54:50 2200
原创 国产开源ChatGPT模型对比
# 国产开源ChatGPT模型对比(大雾)## 概述为什么要做国产开源ChatGPT模型对比呢(大雾),答案显而易见嘛。最近尤其是这阵子ChatGPT爆火, 2月3日在ChatGPT推出仅两个月后,它在2023年1月末的月活用户已经突破了1亿,成为史上用户增长速度最快的消费级应用程序。而要达到这个用户量,TikTok用了9个月,Instagram则花了2年半的时间。作为一款聊天机器人,凭借大规模预训练模型GPT3.5(~100B参数)、指令微调尤其是人类反馈强化学习微调(RLHF,OpenAI在强化
2023-02-09 23:50:20 8199
原创 pytorch模型(.pt文件)转tensorflow(.pb文件)
需求: pytorch1.x的模型(.pt文件)转tensorflow1.x/2.x的模型(.pb文件—savedmodel格式);目的: pytorch进行实验等, tf-serving部署最后的模型;
2022-12-14 18:00:53 2087
原创 文档理解-layoutxlm-layoutlmv3
# 文档理解-layoutxlm-layoutlmv3-实验## 一、总结-summary - layoutxlm/layoutlmv3模型比较敏感, 不怎么稳定, 尤其是对lr很敏感, 2e-5至5e-5;
2022-10-26 08:56:38 2389
原创 多模态概述
多模态学习可以聚合多源数据的信息,使得模型学习到的表示更加完备。潜表示空间的质量决定了多模态模型的效果,数据量达到一定规模,模态种类越完整,多模态模型的效果越好。
2022-08-03 10:14:39 5378
原创 由国内知名企业开源人工智能项目想到的
6、反倒是一些初创企业开源意愿较强,也是宣传和证明自己技术实力的一种方式吧,例如CV领域的AI四小龙中的商汤、旷视,又比如NLP领域的追一科技和香侬科技。4、不过与大众印象中阿里国内最强的开源互联网企业不同,阿里在AI领域的开源并不活跃,在CV、NLP似乎也见不到阿里的经典项目和论文。3、相较于创业公司,大公司开源动力更强,不过与美国头部互联网公司相比,国内公司的实力确实是不强,有影响力的项目更是少之又少。1、国内开源尤其是AI开源确实不太活跃,相对于企业,更多的可能是大学和个人。.........
2022-08-02 16:52:56 675
原创 计算机视觉CV-目标检测OB
目标检测,也称目标提取,是计算机视觉四大基础任务之一(分类、定位、检测、分割),是一种基于目标几何和统计特征的图像分割。目的是对图像上的预定目标进行分割和识别,通俗来说就是检测图像中有什么,以及在哪里,通常用矩形框圈定目标。传统机器学习时代,目标检测经典算法大都基于滑动窗口、人工特征提取等技术手段,代表算法有VJ检测器、HOG行人检测器和DPM检测器等;深度学习时代大放异彩的卷积神经网络也被引入目标检测任务并大放异彩,实现了真正意义上的工业级使用。...
2022-07-27 10:32:52 1274
原创 计算机视觉CV-骨干网络Backbone
2012-2022是深度学习集中爆发的10年,在这10年间,涌现出许许多多的新技术新理论,尤其是在骨干网络上。ConvNet-1989接近现代卷积神经网络CNN了,它具有两个特征(专利),一个是跨步卷积(strided-convolution),另一个是独立池化层(Pool)。基于该网络架构的系统被用于用于手写邮政编码识别。LenNet-5是一个简单的浅层卷积神经网络,激活函数为sigmoid,其输入INPUT为3232像素的单通道图像;第一个block的卷积层C1为6个53最大池化(步长2),...
2022-07-27 10:29:07 2765
原创 python3写一个http接口(UI界面), 给别人调用5--pywebio
还尝试了一下pywebio,好像是国内的个人项目,github上有3.2star。
2022-07-26 00:15:50 1083
原创 python3写一个http接口(UI界面), 给别人调用4--streamlit
首先推荐streamlit,streamlit是一种低代码方案,即快速构建和共享数据应用程序。说人话就是傻瓜式构建UI界面,做个人demo很方便。在github上star已经超过20k了。美国云计服务商雪花-Snowflake在2022年8亿美元收购了sreamlit公司。只是没想到有一天也会用上低代码工具。...
2022-07-26 00:14:44 1354
原创 mmdetection使用记录汇总
最近需要用到多模态尤其是CV方面的知识, 所以学习和使用了一下mmdetection和其他CV项目, 总结记录下遇到的各种问题, 以便往后查阅。mmdetection版本为当前最新的2.24.1, 总的安装见mmdetection/requirements.txt, 实际上包括requirements/build.txt/optional.txt/runtime.txt/tests.txt四个文件的包,建议手动安装, 尤其是涉及的torch、mmcv-full、opencv-python、detectro
2022-07-05 14:32:51 890
原创 文本内容安全审核
短文本过滤实例,可用于智能识别各种违法违规内容,如涉黄、涉政、暴恐、辱骂、广告、灌水…当前监管越发严重,如何避免用户发布的内容给平台造成风险,内容安全审核是避规内容风险的主要方式。内容安全审核一般分为机审和人审两种方式并行的策略,各云厂商一般已经集成成接口服务,包括文本、图像、语音、视频等,同时也支持私有化部署。本文只调研关于文本的内容安全审核,文本和图像还是可以自己做的。功能:提供图片、视频、文本、语音、网页等形式内容违规检测API,覆盖暴恐、涉政、涉黄、广告、辱骂、不良场景等风险检测能力。技术:鉴
2022-07-05 14:29:16 8788
原创 中文短语抽取/挖掘
中文短语抽取/挖掘概述短语抽取/挖掘(phrase extract/mining, 以下统称短语提取)是信息处理中领域的一项基本任务,但短语抽取与短语挖掘还是有些许不同。短语挖掘侧重于挖掘,一个常见的场景是半自动/自动从生语料中抽取/挖掘出高质量的短语,形成短语词典,提供给下游使用,这更多叫做短语挖掘。而短语抽取更关注抽取,侧重于无条件抽取应用,类似关键词抽取那样,使用者无条件抽取一篇文章中的短语,例如通用NLp工具中HanLP1.x的函数extract_phrase。短语抽取/挖掘与新词发现类似
2022-03-05 19:53:48 2571
原创 短语抽取专利汇总
短语抽取专利汇总利用语义特征的科技创新领域中文关键短语抽取方法及系统 【词性标注 + rake + 向量相似度】摘要:本发明公开了一种利用语义特征的科技创新领域中文关键短语抽取方法及系统。本发明通过挖掘中文科技创新文档语料特征,构建出中文停用词及停用模式库,实现对无效信息的高性能过滤;此外借助领域专家标注对各类关键短语抽取算法进行量化评估分析,从而选用更加适合领域认知的算法模型,并利用多种统计规则进行过滤以提升短语抽取性能;进一步利用文档的结构特点,对文档的主题语义进行向量空间嵌入表示,并综合利用
2022-02-28 09:39:21 895 3
原创 中文文本分析, Text-Analysis
中文文本分析, Text-AnalysisText-Analysis包括analysis-word 词语分析和analysis-classify 文本分类数据分析等, 支持python3读写word的docx格式(包括字体/颜色/高亮)、读pdf等。analysis-word 词语分析介绍analysis_word可用于无监督分析多文件语料(HTML/PDF/DOCX/DOC/TXT/MD), 支持docx高亮抽取-读写、新词发现、中文分词、TFIDF、词向量、词语聚类、句子聚类等功能。详情各个
2021-11-01 23:44:37 2043
原创 数据结构与算法(一)回溯
数据结构与算法(一)回溯(backtrack)回溯算法是对树形或者图形结构执行一次深度优先遍历,实际上类似枚举的搜索尝试过程,在遍历的过程中寻找问题的解。深度优先遍历有个特点:当发现已不满足求解条件时,就返回,尝试别的路径。此时对象类型变量就需要重置成为和之前一样,称为「状态重置」。许多复杂的,规模较大的问题都可以使用回溯法,有「通用解题方法」的美称。实际上,回溯算法就是暴力搜索算法,它是早期的人工智能里使用的算法,借助计算机强大的计算能力帮助我们找到问题的解。回溯算法实际上一个类似枚举的搜索尝
2021-10-12 23:59:07 1335
原创 闲聊机器人实例四:python实现小姜机器人,BERT检索模型,新增一个余弦相似度Cosine层, 解决BERT句向量编码传输耗时问题。部署tf-serving
BERT检索模型,新增一个余弦相似度Cosine层, 解决BERT句向量编码传输耗时问题。部署tf-serving业务需求BERT向量召回问答对, FAQ标准问答对数据量不大不能把BERT编码部署于网络服务, 如http请求的形式, 因为网络传输耗时, 此外传输的数据量还很大768(维度)*32(float)几乎所有的模型服务只能用cpu, 硬盘、内存都还可以响应要求高, 小时延不能太高代码逻辑首先将FAQ标准问答对生成句向量, bert-sentence-encode;将句向量当成一
2021-09-17 18:40:55 706
原创 pytorch-sequencelabeling是一个支持softmax、crf、span等模型,注于序列标注(命名实体识别、词性标注、中文分词)的轻量级自然语言处理工具包,包含数据与实验
pytorch-sequencelabelingpytorch-sequencelabeling是一个支持softmax、crf、span等模型,只依赖pytorch、transformers、tensorboardX和numpy,专注于序列标注(命名实体识别、词性标注、中文分词)的轻量级自然语言处理工具包。目录数据使用方式paper参考Reference数据数据来源免责声明:以下数据集由公开渠道收集而成, 只做说明; 科学研究、商用请联系原作者; 如有侵权, 请及时联系
2021-08-29 12:49:09 1501 4
原创 pytorch-textclassification是一个专注于中文文本分类(多类分类、多标签分类)的轻量级自然语言处理工具包,基于pytorch和transformers,包含各种实验
pytorch-textclassificationpytorch-textclassification是一个以pytorch和transformers为基础,专注于文本分类的轻量级自然语言处理工具包。支持中文长文本、短文本的多类分类和多标签分类。目录数据使用方式paper参考数据数据来源所有数据集均来源于网络,只做整理供大家提取方便,如果有侵权等问题,请及时联系删除。baidu_event_extract_2020, 项目以 2020语言与智能技术竞赛:事件抽取任务中
2021-08-29 12:40:50 3636 2
原创 Pytorch-NLU,一个中文文本分类、序列标注(实体识别、分词、词性标注)的极简工具包,基于pytorch与tramsforers
Pytorch-NLUPytorch-NLU是一个只依赖pytorch、transformers、numpy、tensorboardX,专注于文本分类、序列标注的极简自然语言处理工具包。支持BERT、ERNIE、ROBERTA、NEZHA、ALBERT、XLNET、ELECTRA、GPT-2、TinyBERT、XLM、T5等预训练模型;支持BCE-Loss、Focal-Loss、Circle-Loss、Prior-Loss、Dice-Loss、LabelSmoothing等损失函数;具有依赖轻
2021-08-29 12:12:41 2984 8
原创 pytorch版损失函数,改写自科学空间文章,【通过互信息思想来缓解类别不平衡问题】、【将“softmax+交叉熵”推广到多标签分类问题】
pytorch-losspytorch版损失函数,改写自科学空间文章,【通过互信息思想来缓解类别不平衡问题】、【将“softmax+交叉熵”推广到多标签分类问题】通过互信息思想来缓解类别不平衡问题将“softmax+交叉熵”推广到多标签分类问题1. Prior-BCEclass PriorMultiLabelSoftMarginLoss(nn.Module): def __init__(self, prior=None, num_labels=None, reduction="mean
2021-08-22 14:38:30 1431 2
chinese_word_segment_data.rar
2019-11-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人