自然语言处理
文章平均质量分 80
Macropodus
最后一次为理想而战。安知南山桂,绿叶垂芳根。何须浅碧深红色,自是花中第一流。
展开
-
LLaMA3(Meta)微调SFT实战Meta-Llama-3-8B-Instruct
LlaMA3-SFT, Meta-Llama-3-8B/Meta-Llama-3-8B-Instruct微调(transformers)/LORA(peft)/推理。原创 2024-04-29 10:02:07 · 2840 阅读 · 0 评论 -
Qwen2(Qwen1.5阿里)微调实战qwen1.5-7b
Qwen1.5-SFT(阿里, Ali), Qwen_Qwen1.5-2B-Chat/Qwen_Qwen1.5-7B-Chat微调(transformers)/LORA(peft)/推理。原创 2024-04-02 18:46:58 · 2895 阅读 · 0 评论 -
near-synonym, 中文反义词/近义词(antonym/synonym)工具包
near-synonym, 中文反义词/近义词(antonym/synonym)工具包.原创 2024-03-15 19:57:21 · 990 阅读 · 0 评论 -
Gemma谷歌(google)开源大模型微调实战(fintune gemma-2b/7b)
Gemma-SFT(谷歌, Google), gemma-2b/gemma-7b微调(transformers)/LORA(peft)/推理。原创 2024-02-26 15:58:08 · 4241 阅读 · 7 评论 -
汉字字形/拼音/语义相似度(单字, 可用于数据增强, 特别是文本纠错csc)
汉字字形/拼音/语义相似度(单字, 可用于数据增强, CSC错别字检测识别任务(构建混淆集))原创 2024-02-21 09:46:25 · 559 阅读 · 0 评论 -
pytorch-textregression,中文文本回归实践,支持多值输出
pytorch-textregression是一个以pytorch和transformers为基础,专注于中文文本回归的轻量级自然语言处理工具,支持多值回归等。原创 2024-02-20 16:31:46 · 675 阅读 · 0 评论 -
pytorch-textsummary,中文文本摘要实践
pytorch-textsummary是一个以pytorch和transformers为基础,专注于中文文本摘要的轻量级自然语言处理工具,支持抽取式摘要等。原创 2024-02-20 16:24:26 · 1451 阅读 · 1 评论 -
从零开始训练一个ChatGPT大模型(低资源,1B3)
大模型全量预训练(1b3), 多卡deepspeed/单卡adafactor。原创 2023-12-05 09:27:11 · 1294 阅读 · 0 评论 -
chatglm3-6b微调实战
chatglm3-6b, chatglm-3b微调/LORA/推理/单机多卡/deepspeed/支持多轮对话。原创 2023-12-04 10:47:20 · 1714 阅读 · 0 评论 -
Qwen-7B微调实例
阿里通义千问(Qwen-7B-Chat/Qwen-7B), 微调/LORA/推理。原创 2023-08-23 11:28:25 · 3771 阅读 · 1 评论 -
LlaMA2微调实战
LLaMA2-SFT, Llama-2-7B微调(transformers)/LORA(peft)/推理。原创 2023-07-28 10:38:54 · 1313 阅读 · 0 评论 -
chatglm2-6b微调实战
chatglm2-6b, chatglm-6b微调/LORA/推理。原创 2023-07-03 08:45:08 · 1911 阅读 · 1 评论 -
LLM-SFT,新微调数据集-MWP-Instruct(多步计算 + 一、二元方程),微调Bloom, ChatGLM, LlaMA(支持QLoRA, TensorBoardX)
中文大模型微调(LLM-SFT), 支持模型(ChatGLM, LlaMA, Bloom), 支持(LoRA, QLoRA, DeepSpeed, UI, TensorboardX), 支持(微调, 推理, 测评, 接口)等.原创 2023-06-12 23:00:54 · 1122 阅读 · 0 评论 -
大模型 LLM 综述, A Survey of Large Language Models
一般认为NLP领域的大模型>=10 Billion参数(也有人认为是6B、7B, 工业界用, 开始展现涌现能力);经典大模型有GPT-3、BLOOM、Flan-T5、GPT-NeoX、OPT、GLM-130B、PaLM、LaMDA、LLaMA等;大模型时间线, 图来自,下同。原创 2023-06-08 10:29:53 · 2947 阅读 · 0 评论 -
国产开源类ChatGPT模型,ChatGLM-6b初步微调实验
chatglm-6b微调/推理, 样本为自动生成的整数/小数加减乘除运算, 可gpu/cpu。原创 2023-03-22 11:07:14 · 8786 阅读 · 6 评论 -
国产开源ChatGPT模型对比
# 国产开源ChatGPT模型对比(大雾)## 概述为什么要做国产开源ChatGPT模型对比呢(大雾),答案显而易见嘛。最近尤其是这阵子ChatGPT爆火, 2月3日在ChatGPT推出仅两个月后,它在2023年1月末的月活用户已经突破了1亿,成为史上用户增长速度最快的消费级应用程序。而要达到这个用户量,TikTok用了9个月,Instagram则花了2年半的时间。作为一款聊天机器人,凭借大规模预训练模型GPT3.5(~100B参数)、指令微调尤其是人类反馈强化学习微调(RLHF,OpenAI在强化原创 2023-02-09 23:50:20 · 8181 阅读 · 0 评论 -
pytorch模型(.pt文件)转tensorflow(.pb文件)
需求: pytorch1.x的模型(.pt文件)转tensorflow1.x/2.x的模型(.pb文件—savedmodel格式);目的: pytorch进行实验等, tf-serving部署最后的模型;原创 2022-12-14 18:00:53 · 2076 阅读 · 0 评论 -
中文文本分析, Text-Analysis
中文文本分析, Text-AnalysisText-Analysis包括analysis-word 词语分析和analysis-classify 文本分类数据分析等, 支持python3读写word的docx格式(包括字体/颜色/高亮)、读pdf等。analysis-word 词语分析介绍analysis_word可用于无监督分析多文件语料(HTML/PDF/DOCX/DOC/TXT/MD), 支持docx高亮抽取-读写、新词发现、中文分词、TFIDF、词向量、词语聚类、句子聚类等功能。详情各个原创 2021-11-01 23:44:37 · 2026 阅读 · 0 评论 -
闲聊机器人实例四:python实现小姜机器人,BERT检索模型,新增一个余弦相似度Cosine层, 解决BERT句向量编码传输耗时问题。部署tf-serving
BERT检索模型,新增一个余弦相似度Cosine层, 解决BERT句向量编码传输耗时问题。部署tf-serving业务需求BERT向量召回问答对, FAQ标准问答对数据量不大不能把BERT编码部署于网络服务, 如http请求的形式, 因为网络传输耗时, 此外传输的数据量还很大768(维度)*32(float)几乎所有的模型服务只能用cpu, 硬盘、内存都还可以响应要求高, 小时延不能太高代码逻辑首先将FAQ标准问答对生成句向量, bert-sentence-encode;将句向量当成一原创 2021-09-17 18:40:55 · 703 阅读 · 0 评论 -
pytorch-sequencelabeling是一个支持softmax、crf、span等模型,注于序列标注(命名实体识别、词性标注、中文分词)的轻量级自然语言处理工具包,包含数据与实验
pytorch-sequencelabelingpytorch-sequencelabeling是一个支持softmax、crf、span等模型,只依赖pytorch、transformers、tensorboardX和numpy,专注于序列标注(命名实体识别、词性标注、中文分词)的轻量级自然语言处理工具包。目录数据使用方式paper参考Reference数据数据来源免责声明:以下数据集由公开渠道收集而成, 只做说明; 科学研究、商用请联系原作者; 如有侵权, 请及时联系原创 2021-08-29 12:49:09 · 1495 阅读 · 4 评论 -
pytorch-textclassification是一个专注于中文文本分类(多类分类、多标签分类)的轻量级自然语言处理工具包,基于pytorch和transformers,包含各种实验
pytorch-textclassificationpytorch-textclassification是一个以pytorch和transformers为基础,专注于文本分类的轻量级自然语言处理工具包。支持中文长文本、短文本的多类分类和多标签分类。目录数据使用方式paper参考数据数据来源所有数据集均来源于网络,只做整理供大家提取方便,如果有侵权等问题,请及时联系删除。baidu_event_extract_2020, 项目以 2020语言与智能技术竞赛:事件抽取任务中原创 2021-08-29 12:40:50 · 3588 阅读 · 2 评论 -
pytorch版损失函数,改写自科学空间文章,【通过互信息思想来缓解类别不平衡问题】、【将“softmax+交叉熵”推广到多标签分类问题】
pytorch-losspytorch版损失函数,改写自科学空间文章,【通过互信息思想来缓解类别不平衡问题】、【将“softmax+交叉熵”推广到多标签分类问题】通过互信息思想来缓解类别不平衡问题将“softmax+交叉熵”推广到多标签分类问题1. Prior-BCEclass PriorMultiLabelSoftMarginLoss(nn.Module): def __init__(self, prior=None, num_labels=None, reduction="mean原创 2021-08-22 14:38:30 · 1428 阅读 · 2 评论 -
开放信息抽取(OIE)系统(五)-- 第四代开放信息抽取系统(基于深度学习, deeplearning-based, 抽取式&生成式)
开放信息抽取(OIE)系统(五)-- 第四代开放信息抽取系统(基于深度学习, deeplearning-based, 抽取式&生成式)一.第四代开放信息抽取系统背景第四代开放信息抽取系统的诞生和发展离不开时代的浪潮,首先是深度学习迅猛发展,word-embedding、seq2seq-attention、attention、bert等技术层出不穷;然后就是前人开源出的各种OIE系统,也给数据标注等带来便利。 基于深度学习的开放信息抽取系统与之前的信息抽取方法有极大的不同,1)首先是使用开原创 2021-07-31 01:10:25 · 1697 阅读 · 0 评论 -
开放信息抽取(OIE)系统(三)-- 第二代开放信息抽取系统(人工规则, rule-based, 先抽取关系)
开放信息抽取(OIE)系统(三)-- 第二代开放信息抽取系统(人工规则, rule-based, 先关系再实体)一.第二代开放信息抽取系统背景 第一代开放信息抽取系统(Open Information Extraction, OIE, learning-based, 自学习, 先抽取实体)通常抽取大量冗余信息,为了消除这些冗余信息,诞生了第二代开放信息抽取系统。二.第二代开放信息抽取系统历史第二代开放信息抽取系统着眼于解决第一代系统的三大问题: 大量非信息性提取(即省略关键信息的提取)、原创 2021-07-29 00:06:25 · 762 阅读 · 0 评论 -
开放信息抽取(OIE)系统(二)-- 第一代开放信息抽取系统(自学习, learning-based,先抽取实体)
开放信息抽取(OIE)系统(二)-- 第一代开放信息抽取系统(自学习, 先抽取实体)一.第一代开放信息抽取系统背景 信息抽取一般指的是实体抽取、关系抽取和事件抽取等;信息抽取系统,尤其是开放信息抽取系统,相比于传统的有监督信息抽取, 区别在于开放信息抽取系统往往不需要指定或定义实体和关系的类型。由半手工的KnowItAll系统改进而来,Banko等人(2007年)第一次提出了开放信息抽取(OIE, Open Information Extraction)的概念,设计了Textrunne原创 2021-07-28 22:28:11 · 750 阅读 · 1 评论 -
中文短文本分类实例九-CRNN(A C-LSTM Neural Network for Text Classification)
一.概述CRNN(A C-LSTM Neural Network for Text Classification),是Chunting Zhou等提出的一种联合CNN和RNN的优点的混合神经网络,可称之为"卷积-递归"神经网络。 不同于RCNN先对文本句子上下文本信息、以及word-embedding本身特征的提取,CRNN中的CNN可以看成另外一种形式的句子信...原创 2019-06-24 10:22:42 · 2207 阅读 · 11 评论 -
闲聊机器人实例一:python实现小姜机器人chatbot_xiaojiang聊天(概述)
小姜机器人、python、tensorflow、chatbot、dialog、检索式、生成式、聊天、闲聊、对话、问答、多轮、单轮、开放、封闭、任务、垂直等等描述,都属于自动问答领域。而且已经有了比较大的应用,常见的智能手机助手、聊天机器人、智能客服......一.分类 1. 依照应用场景的不同,Chatbot可以分为开放域chatbot和封闭域chatbot,也...原创 2019-04-20 17:28:50 · 4134 阅读 · 0 评论 -
Xlnet句向量实现(embedding)与句子相似度计算
一.Xlnet概述 Xlnet是bert预训练模型之后NLP领域的又一重大进展,它充分吸收了Bert的双向语言模型(自编码-MaskLM机制)、预训练+Finetun机制(Transformer特征抽取)、大规模语料训练经验(corpus)、句子级别表征(sentence-level representation)等成功经验,开创性的引入Permutation Language...原创 2019-08-28 22:07:04 · 4172 阅读 · 0 评论 -
腾讯开源分类项目码源阅读(NeuralNLP-NeuralClassifier优点与缺点)
NeuralNLP-NeuralClassifier-master 1. 所有用超参数用json文件保存 2. 训练结束后设置学习率lr=0, 这样就不用设置is_train这个参数了 def update_lr(self, optimizer, epoch): if epoch > self.config.train.n...原创 2019-08-13 10:13:04 · 1282 阅读 · 6 评论 -
闲聊机器人实例四:python实现小姜机器人(检索式chatbot_sentence_vec_by_bert_bert句向量)
bert构建生成句向量,再计算相似度,匹配问答库中的标准问题。为什么使用bert倒数第二层输出构建句向量。小姜机器人、python、tensorflow、chatbot、dialog、bert中文短文本、fuzzywuzzy、检索式、生成式、聊天、闲聊、对话、问答、多轮、单轮、开放、封闭、任务、垂直等等描述,都属于自动问答领域。而且已经有了比较大的应用,常见的智能手机助手、聊天...原创 2019-05-12 14:40:39 · 2206 阅读 · 4 评论 -
bert中文短文本句向量生成、相似度计算(GPU版、windows、win10、linux、django和flask可用)
BERT句向量GPU线上调用等。出现Floating point exception and SystemError: error return without exception set 。 最近上线需要用到bert,走过了很多坑,有的甚至是不知道怎么回事,而且也很容易从解决一个问题,跳到另外一个问题,巨坑呀有木有。https://github.com/hanx...原创 2019-05-12 09:24:48 · 7934 阅读 · 17 评论 -
文本数据增强三(回译,不同语种间的翻译)
一.中文文本数据增强(中文文本、同义句生成、扩充,增加,enhance、augment、text、nlp、样本不均衡、语料不够、数据不足、扩充增加),相较于图片,中文文本数据强的效果似乎没那么靠谱(效果没那么好),也更加困难,但是捏,很多时候,使用中文文本数据增强还是很有必要的,尤其是项目初期语料不够(估计只能手工构建),或者是样本严重不均衡的情况(比如说分类中一个类有200条数据...原创 2019-04-29 22:12:31 · 4199 阅读 · 3 评论 -
文本数据增强二(EDA、同义词替换-新增-交换-删除-生成同义句)
一.中文文本数据增强 (中文、同义句生成、enhance、augment、text、data、nlp、样本不均衡、语料不够、数据不足、扩充增加),相较于图片,中文文本数据强的效果似乎没那么靠谱(效果没那么好),也更加困难,但是捏,很多时候,使用中文文本数据增强还是很有必要的,尤其是项目初期语料不够(估计只能手工构建),或者是样本严重不均衡的情况(比如说分类中一个类有200条数据,另外...原创 2019-04-27 19:32:13 · 10008 阅读 · 4 评论 -
闲聊机器人实例三:python实现小姜机器人(检索式chatbot_sentence_vec_by_word_词向量句向量)
word2vec词向量构建生成句向量,再计算相似度,匹配问答库中的标准问题。 小姜机器人、python、tensorflow、chatbot、dialog、fuzzywuzzy、检索式、生成式、聊天、闲聊、对话、问答、多轮、单轮、开放、封闭、任务、垂直等等描述,都属于自动问答领域。而且已经有了比较大的应用,常见的智能手机助手、聊天机器人、智能客服......一....原创 2019-04-21 23:36:31 · 1424 阅读 · 12 评论 -
闲聊机器人实例二:python实现小姜机器人(检索式chatbot_fuzzywuzzy)
小姜机器人、python、tensorflow、chatbot、dialog、fuzzywuzzy、搜索、检索式、生成式、聊天、闲聊、对话、问答、多轮、单轮、开放、封闭、任务、垂直等等描述,都属于自动问答领域。而且已经有了比较大的应用,常见的智能手机助手、聊天机器人、智能客服......一.概述 检索式chatbot,在我看来,非常适合那些个一...原创 2019-04-21 21:48:11 · 1526 阅读 · 0 评论 -
文本数据增强一(概述、中文、同义句生成、enhance、augment、text、nlp)
文本数据增强(扩充增加、中文、同义句生成、enhance、augment、text、nlp)AugmentText概述 - 相较于图像数据增强,文本数据增强,现在还是有很多问题的; - 往更严格的角度看,文本数据增强更像是同义句生成,但又不完全是,它是一个更大范围的概念; - 很多时候,需要文本数据增强,一个是常常遇到的数据不足,另一个就是数据不均衡。 ...原创 2019-04-09 23:46:33 · 12355 阅读 · 0 评论 -
信息检索IR与学习排序LTR(1)Learning to Rank在QA系统中的应用
1.简述IR与Learning to Rank 信息检索IR (Information Retrieval)即信息查询(Information Search),像什么搜索引擎、论文检索,很是常见; 学习排序LTR(Learning to Rank)是一种监督学习排序方法, 使用的是机器学习方法,但是我感觉近年来似乎进展不大。 近期工作中实验了学习排序Learning to ...原创 2019-03-13 11:06:44 · 1961 阅读 · 0 评论 -
python调用 java 的 ansj_seg 分词工具
出现错误: jpype._jexception.RuntimeExceptionPyRaisable: java.lang.RuntimeException: Class org.ansj.splitWord.analysis.ToAnalysis not found。 python调用 java 的 ansj_seg 分词工具的时候 开始时候参考的是...原创 2018-09-20 08:58:32 · 1716 阅读 · 1 评论 -
短文本相似度(关键词、词向量、句向量、编辑距离、余弦相似度、jaccard、matchzoo、bert)
首先当然是高大上的BERT啦,github项目地址在: https://github.com/yongzhuo/nlp_xiaojiang/tree/master/FeatureProject/bert主要还是各种距离等,github项目地址: https://github.com/yongzhuo/nlp_xiaojiang/blob/master/Fea...原创 2018-09-05 10:58:12 · 8616 阅读 · 0 评论 -
Java新词发现算法码源之研究
最近在学中文分词。 发现新词用到了github上的sing1ee/dict_build,讲解在: 自动构建中文词库:http://www.matrix67.com/blog/archives/5044 挺有意思的。 代码在github上,地址为: https://github.com/sing1ee/dict_bu原创 2018-01-31 17:39:11 · 842 阅读 · 0 评论