nlp
JY HUA
这个作者很懒,什么都没留下…
展开
-
查看NLP预训练模型参数量
from transformers import BertModel, BertConfigconfig = BertConfig.from_json_file('bert-base/config.json')bert_model = BertModel(config, add_pooling_layer=True)pytorch_total_params = sum(p.numel() for p in bert_model.parameters() if p.requires_grad)pr.原创 2021-10-28 16:00:10 · 813 阅读 · 0 评论 -
NLP预训练模型分层学习率衰减
# ref: <How to Fine-Tune BERT for Text Classification? > # 分层学习率衰减 # 基础学习率 lr_base = 5e-6 lr_classifier = 5e-5 # 衰减系数 xi = 0.95 lr = dict() lr[23] = lr_base for k in range(23,0,-1): lr[k-1] = 0.95*lr[k] .原创 2021-08-24 15:39:50 · 742 阅读 · 0 评论 -
T5模型在训练过程中实时计算验证集上准确度,自定义compute_metrics
T5模型不同于bert类模型,它是一个seq2seq模型,它在训练过程中预测结果实时返回的是字典长度的置信度,想要在训练过程中实时监测在验证集上的准确度,可以自己添加自定义compute_metrics函数。以下为采用transformers框架训练添加自定义compute_metrics函数的代码:def compute_metrics(pred): ## 1.处理 pred.predictions # 每个样本的预测结果为vocab大小 predict_res = to原创 2021-04-15 14:43:46 · 1666 阅读 · 2 评论 -
使用transformers的T5模型获取输入文本的sentence embedding句向量
from transformers import T5Tokenizer, T5Modelimport torchMODEL_NAME = 't5-small'print(f'Loading {MODEL_NAME} Model...')# 加载模型和tokenizertokenizer = T5Tokenizer.from_pretrained('t5-small')model = T5Model.from_pretrained(MODEL_NAME)# 输入文本并进行t...原创 2020-12-24 15:02:14 · 4141 阅读 · 0 评论 -
浅谈NLP
2019.10.22自然语言处理问题主要分为两大类:分类和序列标注分类包含两种:multi-class和multi-label两种序列标注可以用来完成NER、生成摘要、问答等任务这些都可在目前SOTA预训练模型(如roberta、xlnet)的基础上进行fine-tuning,也就是站在巨人的肩膀上。自己的代码库可以将几类NLP问题整理成通用的框架,每次面对不同的数据集(各路比...原创 2019-10-22 15:48:31 · 250 阅读 · 0 评论 -
python通过re正则表达式切割中英文
import res = 'alibaba阿里巴巴' # 待分割字符串en_letter = '[\u0041-\u005a|\u0061-\u007a]+' # 大小写英文字母zh_char = '[\u4e00-\u9fa5]+' # 中文字符print(re.findall(zh_char,s) + re.findall(en_letter,s))# 输出: ['阿里巴巴'...原创 2019-10-11 18:08:19 · 3020 阅读 · 0 评论 -
dataframe常用操作笔记
Q:dataframe样本按行打乱from sklearn.utils import shuffledf_final = shuffle(df_final)df_final.reset_index(drop=True,inplace=True)原创 2019-10-09 16:53:01 · 165 阅读 · 0 评论 -
通过MultiLabelBinarizer进行multi-label分类任务的数据预处理
(Pandas: How to prepare a Multi-Label Dataset? )当进行mutli-class多标签分类任务的数据集构建时,通常我们会需要对如下这样的csv进行处理:使用sklearn中MultiLabelBinarizer,只需简单的四行代码,即可转换成模型所需要的数据集格式,具体代码如下:from sklearn.preprocessing...原创 2019-10-09 16:28:42 · 1355 阅读 · 0 评论 -
CCF BDCI 互联网新闻情感分析 baseline思路(持续更新..)
11.6B榜第50名进复赛??!掉的不行。。10.7上分,靠融合,xlnet、roberta、bert模型融合起来,强强联手,加gru,split_num设4,多折,文本清洗不如不洗,目前线上0.81770003,当前排名top99.14上分上分,血的教训,之前跑了十来版没怎么上分,事实证明!k-fold很重要!!!却也充满了随机性。。目前roberta+5fold线上0.80...原创 2019-08-29 14:57:41 · 2658 阅读 · 2 评论 -
[ NLP ] 自然语言处理必读论文及预训练模型(2019.10.28更)
【 Albert 】ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS论文链接:https://arxiv.org/pdf/1909.11942.pdfGitHub:https://github.com/brightmart/albert_zh【 SpanBERT 】Sp...原创 2019-06-26 17:01:26 · 4089 阅读 · 1 评论 -
通过NLP技术寻找公司竞品(智能投研)
基于bert模型的文本embedding【 竞品搜索展示 】输入公司名:specific_com = '圆宿外包公寓'返回竞品结果列表:com_name:'圆宿外包公寓' com_cat:企业服务 房产服务 com_des:圆宿公寓是一家专业从事企业员工(蓝领)宿舍外包服务的公寓品牌,通过酒店或物业方合作获得目标公寓(轻资产模式),采用集中式物业管理形态,以企业员工酒店...原创 2019-06-26 17:00:17 · 1477 阅读 · 0 评论