自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(356)
  • 收藏
  • 关注

原创 【Python机器学习】机器学习基础知识网络

用一周的时间对之前学习过的机器学习基础知识进行归纳

2024-09-24 08:43:29 105

原创 【Python机器学习】NLP信息提取——提取人物/事物关系

词性(POS)标注可以使用语言模型来完成,这个语言模型包含词及其所有可能词性组成的字典。然后,该模型可以使用已经正确标注好词性的句子进行训练,从而识别由该字典中其他词组成的新句子中所有词的词性。

2024-09-20 15:25:17 2216

原创 【Python机器学习】长短期记忆网络(LSTM)

LSTM对于循环网络的每一层都引入了状态的概念。状态作为网络的记忆。可以把上述过程看成是在面向对象编程中为类添加属性。每个训练样本都会更新记忆状态的属性。

2024-09-13 21:21:49 1399 1

原创 【Python机器学习】卷积神经网络(CNN)——语义理解

目前,自然语言处理领域中两个最重要的模型是卷积神经网络和循环神经网络,以及它们的各种变体。

2024-09-02 17:57:06 732

原创 【Python机器学习】神经网络的组成

神经网络对于输入数据进行分类和识别的能力很强。神经网络非常强大,可以轻易地使用它来完成NLP聊天机器人里的输入文本分类、文档摘要甚至小说作品生成任务。

2024-09-01 16:41:29 1856 1

原创 【Python机器学习】NLP对话引擎——语言技能

聊天机器人往往被称为对话系统,可能是因为聊天机器人的复杂性。利用文本中的匹配模式并使用这些模式提取的信息填充预先设计好的响应模板知识现代构建聊天机器人的4中方法之一

2024-10-21 08:30:00 890

原创 【Python】创建txt文件时指定编码格式

Python中创建一个txt文件并指定编码格式,可以通过open函数中的encoding参数指定

2024-09-25 15:35:03 129

原创 【Python】查看txt文件的字符编码方式

Python中,可以使用chardet库来查看特定txt文件的编码格式

2024-09-25 15:22:02 143

原创 【Python机器学习】机器学习总结-回归

​《机器学习实战》书中回归part的总结(其中的部分实践没有录入)​

2024-09-25 10:57:28 100

原创 【Python】Windows下安装使用FFmpeg

FFmpeg是一套可以用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序。之前为了MP3转wav,需要pip安装并import,但是会报错:FileNotFoundError: [WinError 2] 系统找不到指定的文件。

2024-09-25 09:38:01 614

原创 【Python】MP3音频文件识别(转)中文文本

其他教程说的recognize_sphinx方式,效果其实很差的,不如vosk。

2024-09-25 09:12:19 941

原创 【Python机器学习】机器学习总结——分类

《机器学习实战》书中分类part的总结(其中的部分实践没有录入)

2024-09-24 11:51:34 139

原创 【Python】利用Python+thinker实现旋转转盘

用Python+thinker实现转盘,并且能够随机旋转任意角度。

2024-09-24 09:21:20 351

原创 【Python机器学习】NLP信息提取——现实世界的信息提取

无论是从大型语料库还是实时从用户输入中解析信息,能够提取特定细节并将其存储起来供以后使用对于聊天机器人的性能至关重要。

2024-09-20 16:01:56 237

原创 【Python】 报错Can‘t find model ‘en_core_web_md‘

安装spaCy库以及en_core_web_md模型。

2024-09-19 21:10:17 302

原创 【Python机器学习】NLP信息提取——值得提取的信息

提取日期比提取GPS坐标要难很多。日期更接近自然语言,可以通过不同的方言表达类似的事物。

2024-09-19 17:39:12 1262

原创 【Python机器学习】NLP信息提取——正则模式

我们需要一种模式匹配算法,该算法可以识别与模式匹配的字符序列或词序列,以便从较长的文本字符串中“提取”它们。

2024-09-18 18:38:53 1328

原创 【Python机器学习】NLP信息提取——命名实体与关系

一个典型的句子可能包含集中几种不同类型的命名实体,例如地理位置实体、组织、人物、政治实体、时间、事件和自然现象。同时,一个句子有也可以包含多个关系,即关于句子中命名实体之间关系的事实。

2024-09-18 18:01:56 1071

原创 【Python机器学习】序列到序列建模——实际应用

序列到序列网络非常适合所有具有可变长度输入序列或可变长度输出序列的机器学习应用。由于自然语言的词序列几乎总是有不可预测的长度,因此序列到序列模型可以提高大多数机器学习模型的精确率。

2024-09-17 18:59:33 462

原创 【Python机器学习】序列到序列建模——对序列到序列模型的增强

有两种增强训练序列到序列模型的方法,可以提高模型的精确率和可扩展性。

2024-09-17 16:52:56 700

原创 【Python机器学习】序列到序列建模——使用序列到序列网络构建一个聊天机器人

训练的时间会非常长,100次训练的时间可能达到了10小时以上

2024-09-15 13:40:29 1179

原创 【Python机器学习】序列到序列建模和注意力机制——训练序列到序列网络

在Keras模型中,创建序列到序列模型的最后一个步骤是编译(compile)和拟合(fit)。

2024-09-15 09:53:47 314

原创 【Python机器学习】序列到序列建模和注意力机制——组装一个序列到序列的流水线

组装一个序列到序列的流水线

2024-09-14 15:34:56 774

原创 【Python机器学习】序列到序列建模和注意力机制——编码-解码架构

编码-解码架构的前半部分是序列编码器,该网络将序列(如自然语言文本)转换为较低维的表示形式(如思想向量),这样就已经构建了序列到序列模型的前半部分。

2024-09-14 11:13:41 1271

原创 【Python机器学习】循环神经网络(RNN)——对RNN进行预测

如果有一个经过训练的模型,接下来就可以对其进行预测

2024-09-11 15:55:52 1513

原创 【Python机器学习】循环神经网络(RNN)——超参数

几乎所有模型都可以根据数据和样本进行调整,它们都有各自的优势和相应的利弊权衡方式。寻找最优超参数集通常是一个棘手的问题,但是人类的直觉和经验可以为我们提供解决问题的方法。

2024-09-11 11:20:25 864

原创 【Python机器学习】循环神经网络(RNN)——传递数据并训练

与其他Keras模型一样,我们需要向.fit()方法传递数据,并告诉它我们希望训练多少个训练周期(epoch)

2024-09-11 10:20:37 514

原创 【Python机器学习】循环神经网络(RNN)——审察模型内部情况

Keras附带了一些工具,比如model.summary(),用于审察模型内部情况。随着模型变得越来越复杂,我们需要经常使用model.summary(),否则在调整超参数时跟踪模型内部的内容的变化情况会变得非常费力。

2024-09-10 15:29:42 731

原创 【Python机器学习】循环神经网络(RNN)——利用Keras实现循环神经网络

首先,加载数据集,获取标签并随机打乱样本,然后对文档分词并使用Word2vec模型使其向量化,接下来,获取标签,最后按照80/20的比例将原始数据分成训练集和测试集。

2024-09-10 10:44:24 1422

原创 【Python机器学习】循环神经网络(RNN)——循环网络的记忆功能

循环神经网络(RNN)使神经网络能够记住句子中出现过的词。

2024-09-09 19:23:29 2134

原创 【Python机器学习】卷积神经网络(CNN)——在NLP中使用CNN

对于句子这种一维输入,我们主要关注的是词条在一维空间维度的关系,所以做的是一维卷积。这里的卷积核也可以是是一维的。

2024-09-09 10:44:39 943

原创 【Python】报错UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0x93 in position 596: illegal multibyte

UnicodeDecodeError: 'gbk' codec can't decode byte 0x93 in position 596: illegal multibyte

2024-09-06 12:08:42 211

原创 【Python机器学习】卷积神经网络(CNN)

卷积神经网络(CNN)得名于在数据样本上用滑动窗口(或卷积)的概念。

2024-09-03 15:14:11 1198

原创 【Python机器学习】卷积神经网络(CNN)的工具包

Python是神经网络工具包最丰富的语言之一。两个主要的神经网络架构分别是Theano和TensorFlow。

2024-09-03 10:12:16 527

原创 【Python机器学习】词向量推理——词向量

Word2vec仅仅基于大型未标记文本语料库来学习词的含义,而不需要标记Word2vec词汇表中的词。我们不需要告诉西雅图是一个城市,也不需要告诉它足球是一项运动,Word2vec完全可以靠自己学到更多的知识。用户需要做的只是准备一个足够大的语料库。

2024-09-03 10:01:10 1655

原创 【Python机器学习】词向量推理——语义查询与类比

词向量是对词语义或含义的数值向量表示,包括字面意思和隐含意义。

2024-09-02 10:13:45 341

原创 【Python】报错cannot import name ‘Mapping‘ from ‘collections‘

这是因为Python版本更新导致的,在Python3.3之前,Mapping是可以直接在collections包导入,但是在Python3.3版本之后

2024-09-01 21:21:06 110

原创 【Python机器学习】NLP词频背后的含义——主题向量的威力

当根据文档中包含的词或部分词搜索文档时,称为全文搜索,这就是搜索引擎所做的事情。

2024-08-31 12:35:16 1297

原创 【Python机器学习】NLP词频背后的含义——反馈及改进

通过调整向聚类和嵌入算法报告的距离分数,我们可以控制自己的向量,从而让它们使一些代价函数最小化。通过这种方式,可以“强制”向量专注于我们感兴趣的信息内容的某个方面。

2024-08-31 10:08:20 723

原创 【Python机器学习】NLP词频背后的含义——距离和相似度

我们可以使用相似度评分(和距离),根据两篇文档的表示向量间的相似度(或距离)来判断文档间有多相似。

2024-08-30 21:41:19 1422

【Python机器学习】机器学习总结-回归

【Python机器学习】机器学习总结-回归

2024-09-25

【Python机器学习】机器学习总结-分类

【Python机器学习】机器学习总结-分类

2024-09-24

【Python机器学习】机器学习基础知识网络

【Python机器学习】机器学习基础知识网络

2024-09-24

ram-price文件

ram-price文件

2024-01-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除