NLP
dfsj66011
这个作者很懒,什么都没留下…
展开
-
NER —— Bert/ALBert+CRF
目录Bert/ALBert+CRF一、模型简介1、Bert:双向预训练 + 微调1.1 背景1.2 模型结构1.3 输入输出1.4 Masked Language Model1.5 Next Sentence Prediction1.6 Bert 微调2、ALBert:轻量级 Bert2.1 背景2.2 Embedding 矩阵分解2.3 层次间的参数共享2.4 句子顺序预测损失二、代码详解1、主函数 `run_ner_crf.main()`1.1 环境准备1.2 三大组件1.3 train/eval/p.原创 2020-11-13 09:11:29 · 3809 阅读 · 2 评论 -
NER —— BiLSTM+CRF
目录BiLSTM+CRF1、原理讲解1.1 LSTM1.2 BiLSTM1.3 CRF1.3.1 Emission Score1.3.2 Transition 分数1.3.3 CRF loss1.3.4 推理2、核心代码[^3][^5]2.1、CRF 部分整体概览[^4]2.2、计算 loss2.3、计算分子部分2.5 维特比解码参考资料:附录计算所有路径的总分计算推理BiLSTM+CRF注:以下所有内容均非原创,是集合几篇内容不错的资料集中整理的,含理论讲解、公式推导、代码结合等多个过程,重在讲解.原创 2020-10-28 17:08:15 · 402 阅读 · 0 评论 -
文本聚类(二)—— KMeans 聚类
目录二、KMeans 聚类2.1 加载数据集2.2 数据清洗2.3 文本向量化2.4 文本聚类2.5 关键词展示2.6 判定最佳聚类数参考文档这第一篇内容中,我们介绍了 LDA 主题模型,这一篇,我们将介绍经典的 KMeans 聚类算法在文本上的表现。为了方便和前面 LDA 主题模型对比,我们依然使用同一份数据集,对数据的前期处理保持一致。二、KMeans 聚类2.1 加载数据集df = pd.read_csv('/content/drive/My Drive/cnews.train.txt',.原创 2020-10-13 15:07:22 · 8850 阅读 · 9 评论 -
文本聚类(一)—— LDA 主题模型
目录文本聚类一、LDA 主题模型1.1 加载数据集1.2 数据清洗、分词1.3 构建词典、语料向量化表示1.4 构建 LDA 模型1.5 小结文本聚类因工作需要,近期需要做一些文本聚类方面的事情,算法方面主要选择的是传统的机器学习算法,主要尝试的是 LDA 主题模型和 K-Means 聚类算法,使用的数据集是 THUCNews 新闻文本分类数据集,其中只使用了训练集 cnews.train.txt 部分,下面我们首先尝试 LDA 主题模型算法:下面首先导入一些需要用到的算法包:import war.原创 2020-09-20 16:09:07 · 23247 阅读 · 53 评论 -
图解 Reformer: The efficient Transformer
目录????图解 Reformer: The efficient TransformerWhy Transformer?What’s missing from the Transformer????? Problem 1 (Red ????): Attention computation???? Problem 2 (Black ????): Large number of layers???? Problem 3 (Green ...翻译 2020-02-09 10:47:03 · 2802 阅读 · 0 评论 -
二、正则表达式、文本正则化、编辑距离
目录二、正则表达式、文本正则化、编辑距离2.1 Regular Expressions2.1.1 基本的正则表达式模式2.1.2 Disjunction(析取)、Grouping、以及优先级顺序2.1.5 更多操作符(小结)2.1.6 正则表达式替换、捕获组2.2 Words2.3 语料2.4 文本正则化2.4.1 利用 Unix 工具粗糙的分词和正则化2.4.3 中文分词:最大匹配算法2.4....原创 2020-02-06 09:32:14 · 1847 阅读 · 0 评论