- 博客(356)
- 收藏
- 关注
原创 【Python机器学习】NLP信息提取——提取人物/事物关系
词性(POS)标注可以使用语言模型来完成,这个语言模型包含词及其所有可能词性组成的字典。然后,该模型可以使用已经正确标注好词性的句子进行训练,从而识别由该字典中其他词组成的新句子中所有词的词性。
2024-09-20 15:25:17 2216
原创 【Python机器学习】长短期记忆网络(LSTM)
LSTM对于循环网络的每一层都引入了状态的概念。状态作为网络的记忆。可以把上述过程看成是在面向对象编程中为类添加属性。每个训练样本都会更新记忆状态的属性。
2024-09-13 21:21:49 1399 1
原创 【Python机器学习】卷积神经网络(CNN)——语义理解
目前,自然语言处理领域中两个最重要的模型是卷积神经网络和循环神经网络,以及它们的各种变体。
2024-09-02 17:57:06 732
原创 【Python机器学习】神经网络的组成
神经网络对于输入数据进行分类和识别的能力很强。神经网络非常强大,可以轻易地使用它来完成NLP聊天机器人里的输入文本分类、文档摘要甚至小说作品生成任务。
2024-09-01 16:41:29 1856 1
原创 【Python机器学习】NLP对话引擎——语言技能
聊天机器人往往被称为对话系统,可能是因为聊天机器人的复杂性。利用文本中的匹配模式并使用这些模式提取的信息填充预先设计好的响应模板知识现代构建聊天机器人的4中方法之一
2024-10-21 08:30:00 890
原创 【Python】Windows下安装使用FFmpeg
FFmpeg是一套可以用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序。之前为了MP3转wav,需要pip安装并import,但是会报错:FileNotFoundError: [WinError 2] 系统找不到指定的文件。
2024-09-25 09:38:01 614
原创 【Python机器学习】NLP信息提取——现实世界的信息提取
无论是从大型语料库还是实时从用户输入中解析信息,能够提取特定细节并将其存储起来供以后使用对于聊天机器人的性能至关重要。
2024-09-20 16:01:56 237
原创 【Python机器学习】NLP信息提取——值得提取的信息
提取日期比提取GPS坐标要难很多。日期更接近自然语言,可以通过不同的方言表达类似的事物。
2024-09-19 17:39:12 1262
原创 【Python机器学习】NLP信息提取——正则模式
我们需要一种模式匹配算法,该算法可以识别与模式匹配的字符序列或词序列,以便从较长的文本字符串中“提取”它们。
2024-09-18 18:38:53 1328
原创 【Python机器学习】NLP信息提取——命名实体与关系
一个典型的句子可能包含集中几种不同类型的命名实体,例如地理位置实体、组织、人物、政治实体、时间、事件和自然现象。同时,一个句子有也可以包含多个关系,即关于句子中命名实体之间关系的事实。
2024-09-18 18:01:56 1071
原创 【Python机器学习】序列到序列建模——实际应用
序列到序列网络非常适合所有具有可变长度输入序列或可变长度输出序列的机器学习应用。由于自然语言的词序列几乎总是有不可预测的长度,因此序列到序列模型可以提高大多数机器学习模型的精确率。
2024-09-17 18:59:33 462
原创 【Python机器学习】序列到序列建模和注意力机制——训练序列到序列网络
在Keras模型中,创建序列到序列模型的最后一个步骤是编译(compile)和拟合(fit)。
2024-09-15 09:53:47 314
原创 【Python机器学习】序列到序列建模和注意力机制——编码-解码架构
编码-解码架构的前半部分是序列编码器,该网络将序列(如自然语言文本)转换为较低维的表示形式(如思想向量),这样就已经构建了序列到序列模型的前半部分。
2024-09-14 11:13:41 1271
原创 【Python机器学习】循环神经网络(RNN)——超参数
几乎所有模型都可以根据数据和样本进行调整,它们都有各自的优势和相应的利弊权衡方式。寻找最优超参数集通常是一个棘手的问题,但是人类的直觉和经验可以为我们提供解决问题的方法。
2024-09-11 11:20:25 864
原创 【Python机器学习】循环神经网络(RNN)——传递数据并训练
与其他Keras模型一样,我们需要向.fit()方法传递数据,并告诉它我们希望训练多少个训练周期(epoch)
2024-09-11 10:20:37 514
原创 【Python机器学习】循环神经网络(RNN)——审察模型内部情况
Keras附带了一些工具,比如model.summary(),用于审察模型内部情况。随着模型变得越来越复杂,我们需要经常使用model.summary(),否则在调整超参数时跟踪模型内部的内容的变化情况会变得非常费力。
2024-09-10 15:29:42 731
原创 【Python机器学习】循环神经网络(RNN)——利用Keras实现循环神经网络
首先,加载数据集,获取标签并随机打乱样本,然后对文档分词并使用Word2vec模型使其向量化,接下来,获取标签,最后按照80/20的比例将原始数据分成训练集和测试集。
2024-09-10 10:44:24 1422
原创 【Python机器学习】卷积神经网络(CNN)——在NLP中使用CNN
对于句子这种一维输入,我们主要关注的是词条在一维空间维度的关系,所以做的是一维卷积。这里的卷积核也可以是是一维的。
2024-09-09 10:44:39 943
原创 【Python】报错UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0x93 in position 596: illegal multibyte
UnicodeDecodeError: 'gbk' codec can't decode byte 0x93 in position 596: illegal multibyte
2024-09-06 12:08:42 211
原创 【Python机器学习】卷积神经网络(CNN)的工具包
Python是神经网络工具包最丰富的语言之一。两个主要的神经网络架构分别是Theano和TensorFlow。
2024-09-03 10:12:16 527
原创 【Python机器学习】词向量推理——词向量
Word2vec仅仅基于大型未标记文本语料库来学习词的含义,而不需要标记Word2vec词汇表中的词。我们不需要告诉西雅图是一个城市,也不需要告诉它足球是一项运动,Word2vec完全可以靠自己学到更多的知识。用户需要做的只是准备一个足够大的语料库。
2024-09-03 10:01:10 1655
原创 【Python】报错cannot import name ‘Mapping‘ from ‘collections‘
这是因为Python版本更新导致的,在Python3.3之前,Mapping是可以直接在collections包导入,但是在Python3.3版本之后
2024-09-01 21:21:06 110
原创 【Python机器学习】NLP词频背后的含义——主题向量的威力
当根据文档中包含的词或部分词搜索文档时,称为全文搜索,这就是搜索引擎所做的事情。
2024-08-31 12:35:16 1297
原创 【Python机器学习】NLP词频背后的含义——反馈及改进
通过调整向聚类和嵌入算法报告的距离分数,我们可以控制自己的向量,从而让它们使一些代价函数最小化。通过这种方式,可以“强制”向量专注于我们感兴趣的信息内容的某个方面。
2024-08-31 10:08:20 723
原创 【Python机器学习】NLP词频背后的含义——距离和相似度
我们可以使用相似度评分(和距离),根据两篇文档的表示向量间的相似度(或距离)来判断文档间有多相似。
2024-08-30 21:41:19 1422
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人