自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 问答 (2)
  • 收藏
  • 关注

原创 机器学习(有监督)——条件随机场CRF

以命名实体为例:类别[B,I,O],B表示名字的第一个字,I表示名字后面的字,O表示不是名字的字。则序列X[他,叫,王,小,明,。],对应的标签Y[O,O,B,I,I,O]。input3->结束中:三个标签里最优的标签是label2,往回找input2->input3的最优标签是label3,同理input1->input2是label3,所以最优标签状态就是label3、label3、label2)。实际上就是所有路径得分之和:1-1-1、1-1-2、1-1-3、......、3-3-2、3-3-3。

2024-02-22 16:49:32 885

原创 NLP学习笔记——命名实体识别

一、思路与步骤,提取码:jkzi例如作者的感言,求月票等等。章节内容的文本过长,大大降低了模型运行的速度。4、将文本通过预训练模型(BERT、XLNet等)或者Word2Vec等别的方式进行分词转向量:通常预训练模型得到的词向量效果更好。分词一般分字,一个字对应一个标签5、数据预处理:将转成的向量文本数据和标签数据规范化:文本数据张量形状为(批数据条数,最大序列长度,词向量维度),标签数据张量形状为(批数据条数,最大序列长度)。6、搭建模型:一般只需要搭建编码器部分,在接上全连接做分类器,

2024-02-22 16:48:19 509

原创 NLP学习笔记——Transformer模型(原理)

解码器与编码器的不同之处在于加了一层用于连接编码器信息的注意力机制模块,如上图中间模块的注意力机制,并且,该模块与其他注意力机制模块的不同之处是掩码机制不同,目的是为了防止解码器偷看到后面的序列信息,如下图所示,(右)遮掩后就不能获取到该时刻后面的序列注意力信息,达到防偷看的目的。编码器里用到的掩码机制只遮住了填充符部分,为了提高计算机的计算速度。前馈神经网络是最基础的神经网络,非常简单,这里用的是一个输入层和输出层的神经网络,激活函数是relu函数,该神经网络的作用是进行非线性运算,提取非线性信息。

2023-07-22 17:04:42 1248

原创 NLP学习笔记——情感分析实战(情感分类)

相关知识自行了解,上代码,代码是好久之前在大学写的了,可能有点乱,工作之后没时间优化了,但模块功能绝对没问题,报错的话应该是库的不兼容产生的,我忘记原来的库版本了,python用的是3.8。一、Transformer-textCNN。一、Transformer-textCNN。二、BERT-textCNN。

2023-07-22 16:35:46 1347

原创 NLP学习笔记——TextRank算法

TextRank算法笔记

2022-11-13 15:48:04 6371 3

原创 python爬虫实例——爬取微博热搜榜的评论

微博热搜评论爬取实战

2022-11-07 09:48:03 2531 2

原创 python爬虫思路——动态网站

动态网页爬虫教程

2022-11-06 13:36:38 1232

原创 python爬虫思路——静态网站

静态网络爬虫的基本思路

2022-11-03 12:44:42 590

原创 python爬虫笔记——Scrapy框架(浅学)

浅学scrapy框架爬虫,刚好用的上,没有深入研究。

2022-10-31 20:34:27 571

原创 NLP学习笔记——情感分析一 (简介)

情感分析的研究现状、技术方法、存在问题等简单介绍。

2022-10-28 15:22:01 11611 4

原创 NLP学习——Word2vec

word2vec的知识点笔记

2022-10-26 19:26:24 2123

原创 NLP学习笔记——TF-IDF算法

NLP学习笔记——TF-IDF

2022-10-25 20:35:14 1607 2

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除