- 博客(14)
- 收藏
- 关注
原创 谈谈 NLP中 大语言模型 LLM的上下文能力 In-Context Learning(ICL)
NLP语言模型、大模型LLM、In-Context Learning(ICL)
2023-06-12 12:32:18 7230
原创 NLP文本分类pytorch框架-支持Bert等预训练语言模型
基本信息基于Pytorch的文本分类框架。同时支持中英文的数据集的文本分类任务。项目地址:text_classifier_pytorch支持的模型非预训练类模型:FastTextTextCNNTextRNNTextRCNNTransformer预训练类模型BertAlbertRobertaDistilbertElectraXLNet支持的训练方式支持中英文语料训练支持中英文的文本分类任务。支持多种模型使用配置文件Config.py中的变量
2022-01-14 13:32:11 1319
原创 基于垂直领域语料,使用MaskLM任务预训练Bert模型
Pretrain_Bert_with_MaskLMInfo使用Mask LM预训练任务来预训练Bert模型。基于pytorch框架,训练关于垂直领域语料的预训练语言模型,目的是提升下游任务的表现。Pretraining TaskMask Language Model,简称Mask LM,即基于Mask机制的预训练语言模型。同时支持 原生的MaskLM任务和Whole Words Masking任务。默认使用Whole Words Masking。MaskLM使用来自于Bert的mask机制,
2021-08-27 18:16:18 3009 23
原创 《A Neural Attention Model for Abstractive Sentence Summarization》论文笔记
《A Neural Attention Model for Abstractive Sentence Summarization》论文笔记1 Introduction2 Background3 ModelNeural Language ModelEncodersBag Of Words EncoderConvilutional EncoderAttention Based EncoderTrain...
2019-02-19 10:09:26 1694
原创 tensorflow 基于深度学习 LSTM 识别验证码 多标签分类
1、前期经验 关于验证码识别,试过使用传统的machine learning方式识别,在相同样本下效果还算可以,但当迁移到别的数据集时,效果不理想。 对于使用深度学习识别验证码,尝试过使用LeNet-5、AlexNet两种卷积网络,可能是网络结构简单的原因,结果不收敛。故尝试用了RNN中的LSTM单元网络来识别,效果较理想。 2、原始验证码文件 ...
2018-05-21 21:20:28 2484 7
原创 python 基于机器学习识别验证码
1、背景 验证码自动识别在模拟登陆上使用的较为广泛,一直有耳闻好多人在使用机器学习来识别验证码,最近因为刚好接触这方面的知识,所以特定研究了一番。发现网上已有很多基于machine learning的验证码识别,本文主要参考几位大牛的研究成果,集合自己的需求,进行改进、学习。2、基本工具开发环境: python 3.5 + pycharm模块:...
2018-04-28 00:06:59 28211 47
原创 scala 时间格式转换(String、Long、Date)
scala中关于时间格式的转换问题,总结为以下三种常用情况:1、时间字符类型转Date类型val time = "2017-12-18 00:01:56"val newtime :Date = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").parse(time)println(newtime)//output:Mon Dec 18 00:01:56 ...
2017-12-21 16:02:26 14531
原创 idea基于maven 和scala创建spark项目
一、需要安装的环境① JDK。本人安装的是1.8版本,安装过程略,网上可搜索anzhuang教程。② MAVEN。本人安装的是3.3.3。③ IDEA。版本是2016.3以后的版本。二、创建基于scala语言的spark项目①创建新项目(FILE -> NEW -> PROJECT)②左边栏选择Maven,点击红圈内容,Next
2017-08-30 22:45:02 4465
原创 机器学习中训练集、验证集和测试集的作用
通常,在训练有监督的机器学习模型的时候,会将数据划分为训练集、验证集合测试集,划分比例一般为0.6:0.2:0.2。对原始数据进行三个集合的划分,是为了能够选出效果(可以理解为准确率)最好的、泛化能力最佳的模型。训练集(Training set)作用是用来拟合模型,通过设置分类器的参数,训练分类模型。后续结合验证集作用时,会选出同一参数的不同取值,拟合出多个分类器。验证集(Cross Valida...
2017-06-13 19:33:22 70147 6
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人