- 博客(343)
- 收藏
- 关注
原创 【Python机器学习】NLP信息提取——正则模式
我们需要一种模式匹配算法,该算法可以识别与模式匹配的字符序列或词序列,以便从较长的文本字符串中“提取”它们。
2024-09-18 18:38:53 722
原创 【Python机器学习】NLP信息提取——命名实体与关系
一个典型的句子可能包含集中几种不同类型的命名实体,例如地理位置实体、组织、人物、政治实体、时间、事件和自然现象。同时,一个句子有也可以包含多个关系,即关于句子中命名实体之间关系的事实。
2024-09-18 18:01:56 502
原创 【Python机器学习】序列到序列建模——实际应用
序列到序列网络非常适合所有具有可变长度输入序列或可变长度输出序列的机器学习应用。由于自然语言的词序列几乎总是有不可预测的长度,因此序列到序列模型可以提高大多数机器学习模型的精确率。
2024-09-17 18:59:33 277
原创 【Python机器学习】序列到序列建模和注意力机制——训练序列到序列网络
在Keras模型中,创建序列到序列模型的最后一个步骤是编译(compile)和拟合(fit)。
2024-09-15 09:53:47 286
原创 【Python机器学习】序列到序列建模和注意力机制——编码-解码架构
编码-解码架构的前半部分是序列编码器,该网络将序列(如自然语言文本)转换为较低维的表示形式(如思想向量),这样就已经构建了序列到序列模型的前半部分。
2024-09-14 11:13:41 1249
原创 【Python机器学习】长短期记忆网络(LSTM)
LSTM对于循环网络的每一层都引入了状态的概念。状态作为网络的记忆。可以把上述过程看成是在面向对象编程中为类添加属性。每个训练样本都会更新记忆状态的属性。
2024-09-13 21:21:49 1215 1
原创 【Python机器学习】循环神经网络(RNN)——超参数
几乎所有模型都可以根据数据和样本进行调整,它们都有各自的优势和相应的利弊权衡方式。寻找最优超参数集通常是一个棘手的问题,但是人类的直觉和经验可以为我们提供解决问题的方法。
2024-09-11 11:20:25 815
原创 【Python机器学习】循环神经网络(RNN)——传递数据并训练
与其他Keras模型一样,我们需要向.fit()方法传递数据,并告诉它我们希望训练多少个训练周期(epoch)
2024-09-11 10:20:37 481
原创 【Python机器学习】循环神经网络(RNN)——审察模型内部情况
Keras附带了一些工具,比如model.summary(),用于审察模型内部情况。随着模型变得越来越复杂,我们需要经常使用model.summary(),否则在调整超参数时跟踪模型内部的内容的变化情况会变得非常费力。
2024-09-10 15:29:42 714
原创 【Python机器学习】循环神经网络(RNN)——利用Keras实现循环神经网络
首先,加载数据集,获取标签并随机打乱样本,然后对文档分词并使用Word2vec模型使其向量化,接下来,获取标签,最后按照80/20的比例将原始数据分成训练集和测试集。
2024-09-10 10:44:24 1368
原创 【Python机器学习】卷积神经网络(CNN)——在NLP中使用CNN
对于句子这种一维输入,我们主要关注的是词条在一维空间维度的关系,所以做的是一维卷积。这里的卷积核也可以是是一维的。
2024-09-09 10:44:39 902
原创 【Python】报错UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0x93 in position 596: illegal multibyte
UnicodeDecodeError: 'gbk' codec can't decode byte 0x93 in position 596: illegal multibyte
2024-09-06 12:08:42 185
原创 【Python机器学习】卷积神经网络(CNN)的工具包
Python是神经网络工具包最丰富的语言之一。两个主要的神经网络架构分别是Theano和TensorFlow。
2024-09-03 10:12:16 498
原创 【Python机器学习】词向量推理——词向量
Word2vec仅仅基于大型未标记文本语料库来学习词的含义,而不需要标记Word2vec词汇表中的词。我们不需要告诉西雅图是一个城市,也不需要告诉它足球是一项运动,Word2vec完全可以靠自己学到更多的知识。用户需要做的只是准备一个足够大的语料库。
2024-09-03 10:01:10 1572
原创 【Python机器学习】卷积神经网络(CNN)——语义理解
目前,自然语言处理领域中两个最重要的模型是卷积神经网络和循环神经网络,以及它们的各种变体。
2024-09-02 17:57:06 706
原创 【Python】报错cannot import name ‘Mapping‘ from ‘collections‘
这是因为Python版本更新导致的,在Python3.3之前,Mapping是可以直接在collections包导入,但是在Python3.3版本之后
2024-09-01 21:21:06 89
原创 【Python机器学习】神经网络的组成
神经网络对于输入数据进行分类和识别的能力很强。神经网络非常强大,可以轻易地使用它来完成NLP聊天机器人里的输入文本分类、文档摘要甚至小说作品生成任务。
2024-09-01 16:41:29 1830 1
原创 【Python机器学习】NLP词频背后的含义——主题向量的威力
当根据文档中包含的词或部分词搜索文档时,称为全文搜索,这就是搜索引擎所做的事情。
2024-08-31 12:35:16 1272
原创 【Python机器学习】NLP词频背后的含义——反馈及改进
通过调整向聚类和嵌入算法报告的距离分数,我们可以控制自己的向量,从而让它们使一些代价函数最小化。通过这种方式,可以“强制”向量专注于我们感兴趣的信息内容的某个方面。
2024-08-31 10:08:20 703
原创 【Python机器学习】NLP词频背后的含义——距离和相似度
我们可以使用相似度评分(和距离),根据两篇文档的表示向量间的相似度(或距离)来判断文档间有多相似。
2024-08-30 21:41:19 1405
原创 【Python机器学习】NLP词频背后的含义——隐性狄利克雷分布(LDiA)
LDiA生成的主题对人类来说更容易理解和解释。这是因为经常一起出现的词被分配给相同的主题,而人类的期望也是如此。
2024-08-30 19:11:06 1848
原创 【Python机器学习】NLP词频背后的含义——主成分分析
当SVD用于降维时,主成分分析(PCA)是SVD的另一个叫法。scikit-learn中的PCA模型对SVD做了一些调整,这将提高NLP流水线的精确率。
2024-08-30 14:37:39 1306
原创 【Python机器学习】NLP词频背后的含义——隐性语义分析
在LSA中提取出词的含义的数学方法称为奇异值分解(SVD)。SVD来自线性代数,是LSA用来创建类似上面的词-主题矩阵中的向量的数学工具。
2024-08-29 18:07:35 1013
原创 【Python机器学习】NLP词频背后的含义——从词频到主题得分
有一种揭示词组合的意义的算法,通过计算向量来表示上述词组合的意义,它被称为隐性语义分析(LSA)。当使用该工具时,我们不仅可以把词的意义表示为向量,还可以用向量来表示整篇文档的意义。
2024-08-29 16:03:47 1302
原创 【Python机器学习】NLP词中的数学——主题建模
逆文档频率(IDF),在齐普夫定律下为主题分析打开了一扇新窗户。我们从前面的词项频繁计数器开始,然后对它进行扩展。
2024-08-28 17:39:46 2940
原创 【Python机器学习】NLP词中的数学——向量化
我们将文本转换为基本的数值,虽然只是把它们存储在字典中。我们不使用频率字典来描述文档,而是构建词频向量。
2024-08-28 10:46:03 1056
原创 【Python机器学习】NLP词中的数学——词袋
我们已经收集了一些词/词条,对这些词进行计数,并将它们归并成词干或者词元,接下来就可以做更多的事情。
2024-08-27 20:08:51 1241
原创 【Python机器学习】NLP分词——词的“情感”
无论NLP流水线中使用的是单个词、n-gram、词干还是词元作为词条,每个词条都包含了一些信息,这些信息中一个重要部分是词的情感,即一个词所唤起的总体感觉或感情。
2024-08-27 18:52:34 1317
原创 【Python机器学习】NLP分词——利用分词器构建词汇表(六)——词汇表归一化
词汇表大小对NLP流水线的性能有很大的影响,有一种减少词汇表大小的方法是将词汇表归一化以便意义相似的词条归并成单个归一化的形式。这样做一方面可以减少需要再词汇表中保留的词条数,另一方面也会提高语料库中意义相似但是拼写不同的词条或者n-gram之间的语义关联。
2024-08-26 21:26:51 1284
原创 【Python机器学习】NLP分词——利用分词器构建词汇表(五)——将词汇表扩展到n-gram
n-gram是一个最多包含n个元素的序列,这些元素从由它们组成的序列(通常是字符串)中提取而成。
2024-08-26 17:15:01 1428
原创 【Python机器学习】NLP分词——利用分词器构建词汇表(四)——标点符号的处理
分词器不仅可以利用空格还可以基于标点符号(如逗号、句号、分号、连字符等)将句子切开。在某些情况下,我们希望这些标点符号也像词一样,被看成独立的词条,但另一些情况下可能又要忽略这些标点符号。
2024-08-26 14:40:40 867
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人