nlp
艾鹤
敏于行,敏于言,千里之行始于足下。
展开
-
【论文阅读随笔】RoPE/旋转编码:ROFORMER: ENHANCED TRANSFORMER WITH ROTARY POSITION EMBEDDING
(这篇讲的很清楚了)原创 2024-03-07 21:48:59 · 1193 阅读 · 1 评论 -
[FT]chatglm2微调
参见:https://github.com/THUDM/ChatGLM2-6B/blob/main/ptuning/ds_train_finetune.sh。参见:https://github.com/THUDM/ChatGLM2-6B/blob/main/ptuning/train.sh。参见:https://github.com/THUDM/ChatGLM2-6B/tree/main/ptuning。原创 2024-02-27 19:12:32 · 664 阅读 · 0 评论 -
[LLM][FT]大模型Fine-Tuning相关技术0
LLM,微调,大模型,加速,分布式训练原创 2024-02-27 18:05:01 · 400 阅读 · 0 评论 -
ChatGPT翻译能力知多少?首篇评测论文由腾讯AI实验室提出?
ChatGPT翻译能力知多少?全球首篇评测论文已出原创 2023-02-10 15:08:32 · 1628 阅读 · 0 评论 -
chatGPT背后的技术之instructGPT简介
chatGPT背后的技术之instructGPT简介原创 2023-02-06 10:10:46 · 1199 阅读 · 0 评论 -
英语单词需大写的各种情况
NLP-英语语法原创 2023-01-04 11:28:11 · 183 阅读 · 0 评论 -
[技术调研]数据不平衡解决方法调研
数据不平衡解决方法调研原创 2022-07-28 18:30:18 · 178 阅读 · 0 评论 -
[论文阅读]NeurIPS 2021论文预讲会总结
NeurIPS 2021论文预讲会总结原创 2022-07-28 18:26:11 · 293 阅读 · 0 评论 -
【技术调研】英语/中文的拼写/语法纠错调研
英语拼写纠错/语法纠错调研原创 2022-07-28 18:20:35 · 288 阅读 · 0 评论 -
ACL2022国内部分论文分享内容总结1
ACL 国内部分论文 主要内容总结原创 2022-06-30 09:43:08 · 872 阅读 · 2 评论 -
模型的可解析性&特征重要性调研
概念https://zhuanlan.zhihu.com/p/51506824概要https://christophm.github.io/interpretable-ml-book/index.htmlhttps://zhuanlan.zhihu.com/p/141013178决策树之类/NNimportancehttps://shimo.im/docs/25q5Mm4PK6iaExqD/ 《重要性分析调研》通用模型可解释性LIMEhttps://zhuanlan.zhihu.com/p/3原创 2022-06-03 16:43:05 · 143 阅读 · 2 评论 -
AutoML之自动超参调优
一、自动超参调优(炼丹自动化)简介: 超参自动调优NNI(重点)NNI文档:https://nni.readthedocs.io/zh/stable/Tutorial/QuickStart.htmlNNI代码:https://github.com/microsoft/nni/blob/master/README_zh_CN.md视频教程:https://www.bilibili.com/video/BV1SA411x7TB二、AUTOML(炼丹全流程自动化)1.简介其AutoML从特征工程原创 2022-05-28 19:30:53 · 497 阅读 · 0 评论 -
词向量存pkl格式
import osimport numpy as npdef load_cn_wiki_wordvec(s_word_vec_path): n_vocab_num = 0 n_word_dim = 0 m_word_vec ={} m_word_id = {} with open(s_word_vec_path, "r", encoding="utf-8") as fp: for i, s_line in enumerate(fp):原创 2022-04-25 10:12:08 · 543 阅读 · 0 评论 -
预训练模型汇总:下载地址&综述
常见类似bert,albert,roberta, bart等预训练模型下载地址汇总原创 2022-02-28 16:24:55 · 2572 阅读 · 0 评论 -
模型格式转换
albert模型TensorFlow转pytorch格式代码见github原创 2022-02-28 16:16:31 · 617 阅读 · 0 评论 -
【论文阅读】Dimensionality Reduction by Learning an Invariant Mapping
1.背景对比学习算是比较早就已经提出了一种技术。其中,早期比较有名的一篇文章就是Lecun等在《Dimensionality Reduction by Learning an Invariant Mapping》(简称 DrLIM)文章中提出的对比学习,它主要是通过NN(非线性function)+对比学习任务实现降维,不过当前主要用于作为多任务的一个任务提升模型效果。这篇文章提出的一段时间以来,对比学习的研究主要集中在CV领域。尤其是最近,自监督学习的兴起,CV领域的一些知名学者又对此做了新的探索,带起原创 2021-08-03 11:33:03 · 1449 阅读 · 2 评论 -
NLP数据增强
1.背景在NLP任务中常常数据不均衡或者数据量不足的情况,这时可以用数据增强相关技术增加数据量。2.相关技术2.1.EDAhttps://github.com/gmftbyGMFTBY/EDA-NLP-Chinese2.2.回译比如,中->英->中2.3.MLM扣词填空2.4 simberthttps://github.com/ZhuiyiTechnology/roformer-simhttps://github.com/ZhuiyiTechnology/simbert原创 2021-08-04 19:53:03 · 207 阅读 · 0 评论 -
NLP数据预处理
数据拆分from sklearn.model_selection import train_test_splittrain_data, dev_data = train_test_split(raw_data,random_state=1,test_size = 0.25)原创 2021-07-08 18:23:57 · 212 阅读 · 0 评论 -
NLP常见词/典汇总
语气词( 参见百度百科):#1.辅音 单音节吧|罢|呗|啵|的|价|家|啦|来|唻|了|嘞|哩|咧|咯|啰|喽|吗|嘛|嚜|么|哪|呢|呐|否|呵|哈|不|兮|般|则|连|罗|给|噻|哉|呸|#2.辅音 多音节罢了|不成|得了|而已|的话|来着|了得|也罢|已而|着呢|着哩|着呐|来的|也好|便了|起见|就是|似地|是的|一般|一样|再说|不过#2.元音阿|啊|呃|欸|哇|呀|也|耶|哟|欤|呕|噢|呦|嘢标点符号(参见百度百科)#中文标点。| ?| !|,|、|;|:#英文标点原创 2020-11-25 11:24:29 · 1553 阅读 · 2 评论 -
词形还原调研
词形还原:就是去掉单词的词缀,提取单词的主干部分(原型),比如:复数变单数分词变原型形容词/副词比较级变原型相关工具NLTK实现:python安装:pip install nltk项目路径:https://github.com/nltk/nltk测试:from nltk.stem import WordNetLemmatizerwnl = WordNetLemmat...原创 2020-04-23 23:12:37 · 269 阅读 · 0 评论 -
python与字符编解码
0 初识进制字符在计算机世界是以0和1表示的,他们有着一一对应的关系,所以我们从二进制认起进制一般表示Python表示其他2进制0011 01010b0011 01018进制650o65\065 \6516进制350x35\x3510进制5353ps: 加"\"来转义常见的那些不能显示的ASCII字符,同时它已经不是传统意...原创 2020-04-09 23:07:33 · 344 阅读 · 0 评论 -
FSM有限状态机-状态图画法
工具推荐1 https://www.processon.com/diagrams2 visio原创 2019-09-19 11:49:31 · 14525 阅读 · 0 评论 -
【文本分类】
https://github.com/jiangxinyang227/textClassifier原创 2019-07-13 21:04:20 · 143 阅读 · 0 评论 -
【X2Paddle】tensorflow2fluid转换VGG_16模型
具体参见:https://github.com/aiainui/X2Paddle/blob/master/tensorflow2fluid/vgg_translate_tutorial.ipynb0 配置环境pip install tensorflow==1.12.0pip install paddlepaddle==1.3pip install protobuf --upgradepi...原创 2019-07-13 19:17:33 · 580 阅读 · 0 评论 -
vim正则入门
我和中文有一个约会#删除所有中文字符%s/[\u4e00-\u9fa5]\+//g#删除所有非中文字符%s/[^\u4e00-\u9fa5]\+//g#删除所有中文字符所在行%g/[\u4e00-\u9fa5]\+/d#删除所有非中文字符所在行%g/[^\u4e00-\u9fa5]\+/d...原创 2019-06-20 19:42:04 · 1064 阅读 · 1 评论 -
【数据】统计汉字字数
实现:import stringdef str_count(str): '''找出字符串中的中英文、空格、数字、标点符号个数''' count_en = 0 count_dg = 0 count_sp = 0 count_zh = 0 count_pu = 0 for s in str: # 英文 if ...原创 2019-04-25 16:39:09 · 815 阅读 · 3 评论 -
【数据】删除当前文件中特定指定词
假设当前文件词,存于文件A.txt,内容为:aabbccddffeegg假设特定文件词,存于文件B.txt,内容为:aabb实现如下:path = 'A.txt'path_word = 'B.txt'#删除结果存在C.txt中path_res = 'C.txt'source = []with open(path,'r') as scan_file: ...原创 2019-04-24 21:38:28 · 765 阅读 · 2 评论 -
【语义相似度】基于词典的语义相似度算法调研
1、算法汇总2、数学原理:参考文献:[1]基于WordNet的语义相似性度量及其在查询推荐中的应用研究[2]基于熵的WordNet概念IC模型原创 2019-03-05 10:48:26 · 723 阅读 · 5 评论 -
【数据】文本去重
1/Linuxsort file.txt | uniq -d2/c++3/python原创 2018-10-11 15:36:23 · 437 阅读 · 0 评论 -
【聚类】kmeans文本聚类实施过程
1、训练词向量参考资料url:http://www.52nlp.cn/中英文维基百科语料上的word2vec实验①准备数据,这里假设使用wiki百科的1G数据,其中需要做一个繁体转简体,转格式为utf8,分词过程,参见上面的博客,这里我已经转好了,下载地址见百度网盘:https://pan.baidu.com/s/1htn3gig passwd:d6ss。②安装好python以及对应的...原创 2018-02-03 16:54:45 · 1386 阅读 · 5 评论 -
【word2vec】原理(一)
[NLP] 秒懂词向量Word2vec的本质词向量来源:在一个三层(V * N * V)神经网络中,不断训练,最终获取其中的输入权重矩阵( V * N),这个权值矩阵就是词向量的来源,一行对应一个词向量。其中V长度为词典大小,N为向量长度NLP本质:语言模型在词这一级别的表示。初学者误区,层次softmax和负采样只是词向量训练的小技巧,不是词向量的本质,切勿一开始就在这两...原创 2019-06-29 21:11:10 · 163 阅读 · 0 评论 -
【工具】 数据处理工具
Pandashttps://www.pypandas.cn/index.html原创 2019-07-10 15:41:16 · 181 阅读 · 0 评论 -
【数据】错误单词生成
拼写错误生成模型https://github.com/bakwc/JamSpell/blob/master/evaluate/typo_model.py原创 2019-08-01 16:44:39 · 177 阅读 · 0 评论 -
【字符编码】‘utf8’ codec can’t decode byte 0xa1
办法1:文件头部增加代码,如下#!/usr/bin/env python# coding=utf-8办法2:用 codecs打开文件,如下codecs.open()办法3:用 utf8编码打开文件,如下with open(file, 'r', encoding='utf-8') as f:办法4:用 ISO-8859-1 编码打开文件(应用于英文系列),如...原创 2019-08-01 15:20:27 · 1391 阅读 · 0 评论 -
【crf】CRF++安装&使用
https://blog.csdn.net/qq_34711606/article/details/84938877原创 2019-07-26 14:16:12 · 157 阅读 · 0 评论 -
【NLP】常见衡量指标(metrics)
1 ROC相关:P,R,F2 相关系数:皮尔逊系数3 字准4 困惑度5 MOS打分原创 2019-07-29 16:25:02 · 1646 阅读 · 0 评论 -
【单词拆分】英语单词拆分/分词
input : 'derekanderson'output: ['derek', 'anderson']英语单词拆分参考资料leetcode 139 https://leetcode-cn.com/problems/word-break/solution/dan-ci-chai-fen-by-leetcode/leetcode 140 https://leetcode-cn.com/p...原创 2019-07-30 18:25:29 · 1000 阅读 · 0 评论 -
【word2vec】词向量Word2vec实战
参考资料url:http://www.52nlp.cn/中英文维基百科语料上的word2vec实验①准备数据,这里假设使用wiki百科的1G数据,其中需要做一个繁体转简体,转格式为utf8,分词过程,参见上面的博客,这里我已经转好了,下载地址见百度网盘:https://pan.baidu.com/s/1htn3gig passwd:d6ss。②安装好python以及对应的模块 gensim,这...原创 2019-07-11 10:31:36 · 487 阅读 · 0 评论 -
NLP 基础&应用研究方向简介
Tracking Progress in Natural Language Processinghttps://github.com/sebastianruder/NLP-progress原创 2019-07-05 17:25:16 · 4229 阅读 · 2 评论 -
【框架】常见深度学习框架介绍
c++PaddlePaddlehttps://github.com/PaddlePaddle/Paddletinydnnhttps://github.com/yixuan/tinydnncaffehttps://github.com/BVLC/caffetensorflowhttps://github.com/tensorflow/tensorflowkaldihttps:/...原创 2019-07-05 17:14:39 · 351 阅读 · 0 评论