AI工程仔
让文档更极简易查、让知识更新鲜、让技术更落地。自用笔记,欢迎交流。
展开
-
Meta NMT / Speech - 小记
USTSpeechMatrix 语音到语音翻译语料库FLORES 数据集M2M-100 模型LASER 数据挖掘VoxPopuliCCMatrixCCAlignedXLS-RWav2vec 2.0NLLB-200原创 2023-06-14 19:11:12 · 530 阅读 · 0 评论 -
OpenKG - 小记
OpenKG声明:OpenKG是公益性中立项目,在OpenKG发布的资源所有权均归资源发布机构或个人所有,资源的质量、版权、隐私保护、合法性、及更新维护均由资源发布者负责。OpenKG是 中国中文信息学会语言与知识计算专业委员会 于2015年发起和倡导的 开放知识图谱社区联盟项目。旨在推动以中文为基础的知识图谱数据的开放、互联与众包,以及知识图谱算法、工具和平台的开源开放工作。原创 2023-05-11 07:56:45 · 860 阅读 · 0 评论 -
[开源]医疗知识图谱
这个案例有助于快速上手知识图谱。转载 2023-04-09 14:01:45 · 1687 阅读 · 0 评论 -
LLaMA
该模型在以下基准上进行了评估:BoolQ、PIQA、SIQA、HellaSwag、WinoGrande、 ARC、OpenBookQA、NaturalQuestions、TriviaQA、RACE、MMLU、BIG台式硬盘、GSM8k、RealToxicityPrompts、WinoGender、CrowS Pairs。维基百科和图书领域包括以下语言的数据:bg、ca、cs、da、de、en、es、fr、hr、hu、it、nl、pl、pt、ro、ru、sl、sr、sv、uk。模型体系结构的超参数。转载 2023-04-04 14:00:38 · 499 阅读 · 0 评论 -
OpenAI - tiktoken ⏳ | fast BPE tokeniser
关于 ⏳ tiktoken性能表现安装tiktoken 如何计算 tokenEncodingsTokenizer libraries 对不同编程语言的支持How strings are typically tokenized使用编解码比较 encodings计算chat API调用的tokens拓展 tiktoken转载 2023-03-31 22:20:06 · 6370 阅读 · 3 评论 -
NLP - langid 语种识别
一、关于 langid二、基本使用Normalization多个语言中选择一个三、训练模型1、需要2、工具是3、过程4、代码调用自定义模型原创 2023-03-02 19:45:10 · 657 阅读 · 2 评论 -
NLP - IRSTLM、SRILM
IRSTLM关于 IRSTLM安装SRILM关于 SRILM安装使用 ngram-count原创 2023-03-07 15:47:34 · 466 阅读 · 0 评论 -
NLP - 快速生成词频文件
词频文件原创 2023-03-04 16:48:59 · 140 阅读 · 0 评论 -
NLP - 词对齐 MGIZA++
关于 MGIZA++安装命令说明mkclsd4normhmmnormplain2sntsnt2coocsnt2coocrmpsnt2plainsymalmgiza原创 2023-03-03 16:09:01 · 526 阅读 · 0 评论 -
NMT - 构建双语概率词典(Probabilistic dictionaries)
一、安装依赖包mosesdecoder安装 mgiza++二、数据预处理三、训练原创 2023-03-03 10:05:49 · 303 阅读 · 2 评论 -
NLP - snownlp
关于 snownlp安装主要功能基本使用繁体转简体关键词提取tf-idf训练snowNLP的情感判断过程原创 2023-03-02 19:38:26 · 233 阅读 · 0 评论 -
NMT - fast-align
关于 fast-align安装编译 fast-align使用准备数据执行 fast_align 命令原创 2023-03-02 19:07:53 · 550 阅读 · 0 评论 -
文本摘要 - 使用 TextRank4ZH 抽取中文文本摘要
关于 TextRank4ZH安装关键词提取关键短语提取摘要生成使用示例报错处理转载 2023-03-01 10:22:25 · 1168 阅读 · 1 评论 -
NLP - 命名实体识别 (peoples_daily_ner, hfl/rbt6)
数据集说明代码实现编码工具定义数据集整理数据查看数据样例加载预训练模型定义下游模型定义2个工具函数定义训练过程两段式训练测试预测转载 2023-02-21 21:20:40 · 944 阅读 · 2 评论 -
对话系统 Rasa 2 - 数据文件说明
1、`domain.yml` 领域1) intent 意图 和 entity 实体2) action 动作3) slot 词槽4) response 回复5) session_config 会话配置2、`config.yml`1) pipeline 流水线2) policies 策略3、`endpoints.yml` 端点4、`data/nlu.yml` nlu 训练数据5、`data/stories.yml` 故事6、组件原创 2023-02-04 17:11:57 · 843 阅读 · 0 评论 -
对话系统 Rasa 1 - 初识跑通
关于 rasa关于对话系统安装 rasarasa 常见命令rasa init文件/数据说明`data/nlu.yml` 训练数据`data/stories.yml` 故事`config.yml` 策略`endpoints.yml` 端点运行 examples1、rasa train 训练模型2、rasa shell 启用交互模式3、rasa run actions4、启动服务 50055、rasa visualize 生成故事图原创 2023-02-04 11:32:31 · 1097 阅读 · 0 评论 -
Huggingface 实战 - 预测下一个词
Huggingface 实例 - 预测下一个词转载 2022-12-03 10:56:17 · 664 阅读 · 0 评论 -
NLP - truecase
使用 truecase 校正文本大小写,训练模型原创 2022-11-24 17:24:14 · 591 阅读 · 0 评论 -
NLP - awesome-align 词对齐
关于 awesome-align安装使用1、输入格式 Input format2、提取对齐 Extracting alignments3、使用平行语料微调4、监督设置 Supervised settings5、模型表现 Model performance6、其它CitationAcknowledgements翻译 2022-11-09 14:43:05 · 549 阅读 · 2 评论 -
NLP - Fairseq
一、关于 FairseqList of implemented papersWhat's New:Previous updates功能:二、依赖和安装1、依赖说明2、安装 fairseq3、安装 NVIDIA's apex 库三、Getting Started预训练模型和示例四、其他加入 fairseq 社区LicenseCitation贰、神经机器翻译 Neural Machine Translation一、预训练模型 Pre-trained models二、使用示例翻译 2022-11-01 23:21:39 · 254 阅读 · 0 评论 -
小技巧 - 中文detokenize(基于规则)
中文 detokenize原创 2022-11-09 17:03:09 · 420 阅读 · 0 评论 -
torchvision
概览datasetsmodelstransformsToTenso(), transpose, permuteNormalizeComposeutils原创 2022-07-24 22:30:14 · 553 阅读 · 0 评论 -
NLP - GIZA++ 实现词对齐
关于 GIZA++安装使用1、将平行语料转化为 GIZA++ 格式(plain2snt.out)2、获取共现文件(snt2cooc.out)3、创建 mkcls 文件(mkcls)4、运行GIZA++原创 2022-06-29 11:26:17 · 1169 阅读 · 0 评论 -
NLP - monocleaner
关于 monocleaner安装打分 Scoring使用 monocleaner-download 下载数据monocleaner-train 训练数据原创 2022-06-25 13:37:17 · 489 阅读 · 0 评论 -
NLP - KenLM
关于 kenlmN-gram安装训练使用原创 2022-06-23 12:37:04 · 858 阅读 · 0 评论 -
NLP - fastText
FastText is an open-source, free, lightweight library that allows users to learn text representations and text classifiers.原创 2022-06-10 09:14:43 · 167 阅读 · 0 评论 -
NLP - AIML
文章目录关于AIML关于 aiml关于 PYAIML关于 aiml 库安装AIML标签元素示例AIMLTopic 主题Category 类别Pattern 模式Template 模板原子模板元素Star(*)Template-side thatInputThatstarTopicstarGetShort-cutSystem-defined predicates文本格式化元素Text Format条件元素捕获元素转换元素隐藏元素thinkLearn扩展处理器元素System使用 aiml 自带文件创建配置文件原创 2022-05-07 11:24:21 · 460 阅读 · 0 评论 -
NLP - Transformer
文章目录Transformer 总体架构计算注意力单头注意力 & 多头注意力词向量编码MaskPAD MASK上三角 MASK完整计算过程Encoder实验数据生成策略学习自:蓝斯诺特 Transformer简明教程, 从理论到代码实现到项目实战, NLP进阶必知必会.https://www.bilibili.com/video/BV19Y411b7qxhttps://github.com/lansinuote/Transformer_ExampleRNN 缺点能够处理的信息复杂度转载 2022-03-23 10:13:03 · 452 阅读 · 0 评论 -
NLP - sentencepiece
一、关于 sentencepiece二、安装1、Python 模块2、从 C++ 源构建和安装 SentencePiece 命令行工具3、使用 vcpkg 构建和安装4、从签名发布的 wheels 下载和安装 SentencePiece三、命令行使用1、训练模型2、将原始文本编码为 sentence pieces/ids3、编码 sentence pieces/ids 到原始文本4、端到端示例 End-to-End Example5、导出词汇表 Export vocabulary li翻译 2022-03-21 20:06:46 · 4791 阅读 · 0 评论 -
Pytorch - 词向量
学习自:蓝思诺特https://www.bilibili.com/video/BV1Ky4y1g7Nk?p=6文章目录One-hot 的缺点过于稀疏没有体现词的相似、关联词向量化:把每一个词投射到n维空间中。主流的两种简单的词向量训练方法:CBOW, Skip-gramCOW: 前后的词预测中间的词;前后多少个词的个数,也叫做 window_size...转载 2022-02-20 21:25:56 · 385 阅读 · 0 评论 -
Pytorch - seq2seq、cnn、attention 日期翻译
文章目录seq2seqcnnattentionseq2seq# %%zidian = { '<PAD>': 0, '1': 1, '2': 2, '3': 3, '4': 4, '5': 5, '6': 6, '7': 7, '8': 8, '9': 9, '0': 10, 'Jan': 11, 'Feb': 12, 'Mar': 13, 'Apr': 14,转载 2022-02-20 21:08:42 · 353 阅读 · 0 评论 -
HuggingFace - 简明教程
本文学习自:视频:https://www.bilibili.com/video/BV1a44y1H7Jc源码:https://github.com/lansinuote/Huggingface_Toturials文章目录转载 2022-02-20 20:52:52 · 15418 阅读 · 0 评论 -
Pytorch - CNN、RNN、GRU 分类
数据准备等CNN 实现姓名分类RNN 实现姓名分类GRU 实现字符预测转载 2022-02-19 13:29:23 · 1373 阅读 · 1 评论 -
NLP 工具
文章目录综合工具Apache OpenNLPSnowball百度 nlp 开源工具集任务分词jiebapypinyin 中文转拼音繁转简zhconvOpenCChanziconv语言类型检测langidlangdetect文本工具其他资料综合工具nltkhanlpspacypyltpApache OpenNLPhttps://opennlp.apache.org/The Apache OpenNLP library is a machine learning based toolkit原创 2022-02-07 12:45:13 · 1518 阅读 · 0 评论 -
NLP - 词的表示:Bow,One-hot, TF-IDF、word2vec
文章目录词的表示潜在语义分析方法(BOW)Countervector 计数TF-IDFBOW 和 TF-IDF 方法的问题词的独热(One-hot )表示独热问题的改进解决维度过大的问题解决无语义的问题 -- 词的分布式表示Word Embedding 词嵌入使用场景Word embedding的训练方法1、无监督或弱监督的预训练2、端对端(end to end)的有监督训练。参考资料参考转载自:https://www.jianshu.com/p/cede3ae146bb词的表示潜在语义分析方法原创 2022-01-02 22:56:38 · 790 阅读 · 0 评论 -
NLP - 结巴分词 & 词云
jieba关于 jieba特点安装使用分词工具添加自定义词典关键词抽取词性标注词云关于词云一些工具、资料使用一个简单的英文词云生成中文词云词云展示自定义显示分析 `WordCloud()` 方法带 mask 词云原创 2022-01-02 22:55:50 · 1456 阅读 · 2 评论 -
NLP - Gensim
关于 Gensim安装基本概念使用 步骤1、训练语料的预处理2、主题向量的变换3、文档相似度的计算补充TF-IDFLDA文档主题生成模型参考资料原创 2022-01-02 22:54:41 · 305 阅读 · 0 评论 -
NLTK - 下载 Data
NLTK Data 安装文章目录NLTK Data 安装方式一:python 安装方式二方式三:下载压缩包然后解压官方说明:http://www.nltk.org/data.html方式一:python 安装$ pip install nltk>>> import nltk# 可以只下载某个单独的包:>>> nltk.download('stopwords')# 下载所有,会弹出下属窗口;注意需要(),如果没有 () 就不会弹出窗口。>&原创 2021-12-31 14:25:16 · 1452 阅读 · 0 评论 -
NLTK - 基本使用
分词处理 html 标签等字符查看频率分布Text对象停用词过滤加载停用词查看英文停用词表查看和停用词表的交集把停用词过滤掉词性标注 pos_tag分块命名实体识别数据清洗原创 2021-12-31 14:24:26 · 640 阅读 · 0 评论 -
KG - neo4j
一、关于 neo4j二、安装配置1、下载2、启动3、关闭数据库Java 环境问题三、简单使用1、增2、删3、改4、查四、Python 读写 neo4j(py2neo)关于py2neo1、建立连接2、创建节点3、创建关系4、搜索1)属性搜索2)关系搜索原创 2021-12-31 14:20:58 · 175 阅读 · 0 评论