诗雨时
励志成为顶尖AI技术人才!某一领域内的领军人物!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
中文分词—日期识别
日期识别原创 2020-11-12 23:50:16 · 760 阅读 · 0 评论 -
python自然语言处理—命名实体识别
命名实体识别原创 2020-11-09 23:40:46 · 2358 阅读 · 0 评论 -
python自然语言处理—HMM模型实战
HMM模型实战import osimport pickleclass HMM(object): def __init__(self, model_file): # 存取算法中间结果,不用每次都训练模型 ...原创 2020-11-04 23:15:19 · 962 阅读 · 3 评论 -
python自然语言处理—词性标注
词性标注一、词性标注简介 1、词性 词汇基本的语法属性,通常也称为词类。 2、词性标注 在给定句子中判定每个词的语法范畴,确定其词性并加以标注的过程。 名词:表示人、地点、事物以及其他抽...原创 2020-11-01 22:32:27 · 2206 阅读 · 0 评论 -
python自然语言处理—中文分词技术
中文分词技术一、中文分词简介 1、什么是词? 英文定义:单词本身就是 "词"的表达,一篇英文文章就是 "单词"加分隔符(空格)来表示的。 中文定义:在汉语中,词以字为基本单位,但是一篇文章的语义表达却仍然是以词来划分的。 2、中文分词 在处理中文文本时,需要进行分词处理,将句子转化为词的表示。 这个...原创 2020-11-04 23:18:13 · 1017 阅读 · 2 评论 -
python自然语言处理—Pointer-Generator Networks(指针生成网络)
Pointer-Generator Networks(指针生成网络) 随着互联网的飞速发展,产生了越来越多的文本数据,文本信息过载问题变得日益严重,对各类文本进行"降维"处理显得非常必要,文本摘要便是其中一个重要的手段。 文本摘要根据摘要方法的不同可分为: 1、抽取式文本摘要:直接从原文中选取若干条重要的句子,并对它们进行排序和重组而形成摘要的方法。 ...原创 2020-10-11 23:49:12 · 1096 阅读 · 0 评论 -
python自然语言处理—Teacher Forcing
Teacher ForcingRNN在训练过程中的问题 训练迭代过程早期的 RNN预测能力非常弱,几乎不能给出好的生成结果。如果某一个 unit产生了垃圾结果,不然会影响后面一片 unit的学习。Teacher Forcing最初的motivation(动机)就是解决这个问题的。RNN的两种训练模式 1、free-running ...原创 2020-10-08 23:27:10 · 824 阅读 · 0 评论 -
python自然语言处理—Parameter optimization in neural networks(神经网络中的参数优化)
Parameter optimization in neural networks(神经网络中的参数优化)进入链接:Parameter optimization in neural networks原创 2020-10-08 22:47:33 · 311 阅读 · 0 评论 -
python自然语言处理—Initializing neural networks(初始化神经网络)
Initializing neural networks(初始化神经网络)进入链接:Initializing neural networks原创 2020-10-08 22:44:09 · 265 阅读 · 0 评论 -
python自然语言处理—Batch_Size
Batch_Size1、Btach_Size是用于在每次迭代中训练模型的数据数量。一般的设置是:32、64、128、256、512.2、选择正确的 Batch_Size用于确保 cost function和参数值的收敛,以及模型的泛化能力。3、Batch_Szie决定更新的频率。Batch_Szie越小,更新就越快。4、Batch越大,...原创 2020-10-08 17:54:55 · 2871 阅读 · 0 评论 -
python自然语言处理—自动文摘评测方法
自动文摘评测方法ROUGE ROUGE(Recall-Oriented Understudy for Gisting Evaluation) ,在 2004年由 ISI的 Chin-Yew Lin提出的一种自动摘要评价方法,是评估自动文摘以及 机器翻译的一组指标。 ROUGE基于摘要中n元词(n-gram)的共现信息来评价摘要,是一...原创 2020-10-08 00:56:34 · 423 阅读 · 0 评论 -
python自然语言处理—Datasets(数据集)
Datasets(数据集)本文整理了一些文本摘要数据集,具体如下: 1、中文数据集:新浪微博摘要数据集(679898 条数据) 2、英文数据集:Gigaword 、LCSTS 、Newsroom 、Xsum、CNN dailymail。...原创 2020-10-07 23:01:41 · 2593 阅读 · 0 评论 -
python自然语言处理—Scheduled Sampling(计划采样)
Scheduled Sampling(计划采样)序列生成任务 目标:在给定源输入的条件下,最大化目标序列的概率。 训练时:该模型将目标序列中的真实元素作为解码器每一步的输入,然后最大化下一个元素的概率。 测试时:上一步解码得到的元素被用作当前的输入,然后生成下一个元素。 出现问题:训练阶段和测试阶段的解码器输入数据的概率分布不一致。 ...原创 2020-10-07 22:13:02 · 1893 阅读 · 0 评论 -
python自然语言处理—Beam Search及其优化方法—two
Beam Search及其优化方法(two)上一篇文章我们介绍了基础版的 Beam Search及其优化方法,这篇文章接着对上一篇文章进行扩展,可以在模型不改的情况下获得更好的生成结果。文章主要围绕论文《The Curious Case of Neural Text Degeneration》展开。Beam Search存在的问题 Beam Search虽然比Greedy S...原创 2020-10-07 17:09:17 · 609 阅读 · 0 评论 -
python自然语言处理—Beam Search及其优化方法(one)
Beam Search假定任务 假设现在有一个简化版的中文翻译英文的任务,输入和输出如下: 中文输入:我 爱 你 英文输出:I Love You 为了方便描述搜索算法,限制输出词典只有{"I", "Love", "You"}这 3个候选词,限制 1个时间步长翻译 1个汉字,1个汉字对应 1...原创 2020-10-06 19:15:48 · 432 阅读 · 0 评论 -
python自然语言处理—Attention 机制
Attention机制Attention的本质是什么? Attention(注意力)机制如果浅层的理解,跟它的名字非常匹配。它的核心逻辑是【从关注全部到关注重点】 Attention机制很像人类看图片的逻辑,当我们看到一张图片的时候,我们并没有看清图片的全部内容,而是将注意力集中在了图片的焦点上。我们看一下下面这张图...原创 2020-10-02 16:48:46 · 985 阅读 · 0 评论 -
python自然语言处理—GRU神经网络
GRU神经网络一、GRU概述 GRU是 LSTM神经网络的一种效果很好的变体,GRU保持了 LSTM的效果同时又使得结构更加简单计算量更小,它较 LSTM网络的结构更加简单,而且效果也更好,因此也是当前非常流行的一种神经网络。GRU既然是 LSTM的变体,因此也是可以解决 RNN神经网络中的长依赖问题的。 GRU把 LST...原创 2020-09-23 23:39:04 · 5084 阅读 · 0 评论 -
python自然语言处理—LSTM(长短期记忆(long short term memory)神经网络)
LSTM(长短期记忆(long short term memory)神经网络)循环神经网络(Recurrent Neural Networks) 人对于一个问题的思考并不会完全从头开始。比如我们在阅读本篇文章时,我们会根据之前理解过的信息来理解后面看到的文字。在理解当前文字的时候,我们并不会忽略之前看过的文字,从头思考当前文字的含义。 传统的神经网络并不能做到这一点,这是在对这种序列信息(如语言)进行预测时的一个缺...原创 2020-09-18 00:12:26 · 3411 阅读 · 0 评论 -
python自然语言处理—RNN(循环神经网络)
RNN(循环神经网络)一、前言 循环神经网络(recurrent neural network)源自于1982年由Saratha Sathasivam 提出的霍普菲尔德网络。 传统的机器学习算法非常依赖于人工提取的特征,使得基于传统机器学习的图像识别、语音识别以及自然语言处理等问题存在特征提取的瓶颈。而基于全连接神经网络的方法也存在参数太多、无法利用数据中...原创 2020-09-08 22:44:12 · 5203 阅读 · 1 评论 -
python自然语言处理—Word2vec模型之 skip-gram 与 cbow 比较
Word2vec模型之skip-gram与cbow比较cbow 和 skip-gram 都是在 word2vec 中用于将文本进行向量表示的实现方法,具体的算法可查看 Word2vec模型之Skip-gram和 Word2vec模型之 CBOW。一、计算复杂度O 1、cbow O(V) 在 cbow 方法中,是用周围词预测中心词,从而利用中心词的预测结果情况,使用GradientD...原创 2020-09-03 23:42:10 · 1172 阅读 · 0 评论 -
python自然语言处理—Word2vec模型之 CBOW
Word2vec算法之 CBOW 模型一、基于Hierarchical Softmax的CBOW模型 1、模型说明 基于神经网络的语言模型的目标函数通常取为如下的对数似然函数: 其中的关键是条件概率 的构造。基于Hierarchical Softmax 的 CBOW 模型优化的目标函数也形如上面的样子。 ...原创 2020-09-02 01:25:26 · 1559 阅读 · 0 评论 -
python自然语言处理—Word2vec模型之Skip-gram
Word2vec 算法之 Skip-gram(跳字)模型一、skip-gram模型图 二、skip-gram模型图示例说明 举个例子来说明这个图在干嘛: 1、假设我们的文本序列有五个词,["the", "man", "loves", "his", "son"]。 2、假设我们的窗口大小为 skip-window=2,中心词为 "loves",那么上下文的词即为...原创 2020-09-01 01:25:57 · 754 阅读 · 0 评论 -
python自然语言处理—Word2vec
Word2vec Word2vec是Word Embedding方式之一,属于 NLP领域。它是将词转化为 【可计算】【结构化】的向量的过程。本文将讲解 Word2vec的原理和优缺点。 这种方式在 2018年之前比较流行,但是随着 BERT、GPT2.0的出现,这种方式已经不算效果最好的方法了。一、什么是 Word2vec? ...原创 2020-08-31 23:05:06 · 727 阅读 · 0 评论 -
python自然语言处理—词嵌入 | Word embedding
词嵌入 | Word embedding文本表示(Representation) 文本是一种非结构化的数据信息,是不可以直接被计算的。 文本表示的作用就是将这些非结构化的信息转化为结构化的信息,这样就可以针对文本信息做计算,来完成我们日常所能见到的文本分类,情感判断等任务。 文本的表示方法有很多,下面只介绍 3类方式: 1、...原创 2020-08-31 21:49:22 · 1779 阅读 · 1 评论 -
python自然语言处理—神经网络语言模型(NNLM)
神经网络语言模型(NNLM) 语言模型的构建目的是为了对语言中的各要素的分布进行估计,具有较长的研究历史和广泛的应用。传统的离散计数类语言模型,比如 bi-gram,n-gram模型等在很多应用领域的结果得到了广泛认可。 其基本假设通常是单词的分布服从 n阶马尔可夫链。通过对连续 n个单词出现频率进行计数并平滑来估计单词出现的概率。 但是由于是离散模型,因此有稀疏性和泛化能力低的缺点。...原创 2020-08-30 23:20:28 · 1084 阅读 · 0 评论 -
python自然语言处理-几种常见的平滑算法
几种常见的平滑算法在计算语言模型的过程中,对于句子中的每一个字符或者词都需要一个非零的概率值,因为一旦存在一个概率为 0的结果,那么整个计算公式的结果都为 0,这种问题我们叫做数据匮乏(稀疏),所以必须分配给所有可能出现的字符串一个非 0的概率值来避免这种错误的发生。举个例子,当我们需要计算一个 sentence我 喜欢 看电影的概率时: P(我, 喜欢,...原创 2020-08-24 23:45:58 · 1904 阅读 · 0 评论 -
python自然语言处理-语言模型
语言模型 1、什么是语言模型? 为单词序列分配概率的模型就叫做语言模型。对于单词序列,计算的模型就是语言模型。 通俗来说,语言模型就是这样一个模型:对于任意的词序列,它能够计算出这个序列是一句话的概率。或者说语言模型能预测单词序列的下一个词是什么。 那么这个概率怎么计算呢?一个语言模型通常构建为字符串s的概...原创 2020-08-24 20:40:31 · 701 阅读 · 0 评论 -
python 办公自动化
python 办公自动化一、Excel自动化 二、Word自动化 三、PDF自动化 四、PPT自动化原创 2020-08-09 18:38:26 · 377 阅读 · 0 评论