数据挖掘
文章平均质量分 94
程哥哥吖
路虽远,行则将至;事虽难,做则必成。
展开
-
图神经网络学习笔记
点(vertex)、边(edge)、全局图(global),图神经网络(GNN,Graph Neural Network)主要作用还是跟传统神经网络的作用一样——每次每个点通过周围点迭代更新自身权重,随着迭代,图神经网络的感受野会越来越大,慢慢的每个点会拥有全局图的特征。图卷积神经网络与卷积神经网络就像老婆与老婆饼、java和javascrit的区别,原理几乎完全不一样,,哪怕100个输入数据格式都不一样,也可以放入GNN进行训练提取特征,输入输出任务可以自己设计。许多点是未知的甚至不确定的,原创 2022-11-18 14:35:57 · 1160 阅读 · 0 评论 -
HMM和MEMM+CRF序列标注学习笔记
自动机:(又称为 有限自动机,有限状态自动机,FSA)是表示有限个状态以及在这些状态之间的转移和动作等行为的数学模型。例如:我们常用的正则表达式就是一种用来描述字符串出现字符的自动机。假如我们有正则表达式:,表示的是ba后面有1个或这多个a,最后是一个感叹号。我们可以把上述的自动机用图来展示,如下:自动机从初始状态q0开始,反复进行下面的过程:找到第一个字母b,如果找到b那么进入到下一个状态,再去寻找下一个状态需要的字母,指导进行接收状态q4。我们可以使用状态转移表来自动机:上述的状态机我们也称为确定的自动原创 2022-11-09 13:24:54 · 621 阅读 · 0 评论 -
NLP自然语言处理学习笔记(十一)(转自咕泡AI)
pysparnn是一个对sparse数据进行相似邻近搜索的python库,这个库是用来实现 高维空间中寻找最相似的数据的。前面我们使用的pysparnn使用的是一种cluster pruning(簇修剪)的技术,即,开始的时候对数据进行聚类,后续再有限个类别中进行数据的搜索,根据计算的余弦相似度返回结果。随机选择N\sqrt{N}N个样本作为leader选择非leader的数据(follower),使用余弦相似度计算找到最近的leader。原创 2022-11-07 14:23:50 · 317 阅读 · 0 评论 -
NLP自然语言处理学习笔记(十)(转自咕泡AI)
在普通的RNN结构中,Encoder需要把一个句子转化为一个向量,然后在Decoder中使用,这就要求Encoder把源句子中所有的信息都包含进去,但是当句子长度过长的时候,这个要求就很难达到,或者说会产生瓶颈(比如,输入一篇文章等场长内容),当然我们可以使用更深的RNN和大多的单元来解决这个问题,但是这样的代价也很大。那么有没有什么方法能够优化现有的RNN结构呢?为此,Bahdanau等人在2015年提出了Attenion机制,Attention翻译成为中文叫做注意力,把这种模型称为。原创 2022-11-04 15:48:41 · 287 阅读 · 0 评论 -
NLP自然语言处理学习笔记(九)(转自咕泡AI)
在项目准备阶段我们知道,用户说了一句话后,会判断其意图,如果是想进行闲聊,那么就会调用闲聊模型返回结果,这是我们会在项目中实现的功能。目前市面上的常见闲聊机器人有这种类型的模型,很久之前还有这种体验更差的模型常见的闲聊模型都是一种seq2seq的结构,在后面的课程中我们会学习并使用seq2seq来实现我们的闲聊机器人是由和两个RNN的组成的。其中encoder负责对输入句子的理解,转化为,decoder负责对理解后的句子的向量进行处理,解码,获得输出。上述的过程和我们大脑理解东西的过程很相似,那么此时,就有原创 2022-11-03 14:54:03 · 649 阅读 · 1 评论 -
NLP自然语言处理学习笔记(八)(转自咕泡AI)
fastText是一个单词表示学习和文本分类的库优点:在标准的多核CPU上, 在10分钟之内能够训练10亿词级别语料库的词向量,能够在1分钟之内给30万多类别的50多万句子进行分类。fastText 模型输入一个词的序列(一段文本或者一句话),输出这个词序列属于不同类别的概率。哈夫曼树概念:给定n个权值作为n个叶子结点,构造一棵二叉树,若该树的带权路径长度达到最小,称这样的二叉树为最优二叉树,也称为哈夫曼树(Huffman Tree)。哈夫曼树是带权路径长度最短的树,权值较大的结点离根较近。原创 2022-10-28 18:09:55 · 266 阅读 · 1 评论 -
NLP自然语言处理学习笔记(七)(转自咕泡AI)
能够说出实现聊天机器人的需求能够说出实现聊天机器人的流程对句子进行分词之后,句子中不重要的词。原创 2022-10-26 18:53:33 · 521 阅读 · 0 评论 -
NLP自然语言处理学习笔记(六)(转自咕泡AI)
为什么有了神经网络还需要有循环神经网络?在普通的神经网络中,信息的传递是单向的,这种限制虽然使得网络变得更容易学习,但在一定程度上也减弱了神经网络模型的能力。特别是在很多现实任务中,网络的输出不仅和当前时刻的输入相关,也和其过去一段时间的输出相关。此外,普通网络难以处理时序数据,比如视频、语音、文本等,时序数据的长度一般是不固定的,而前馈神经网络要求输入和输出的维数都是固定的,不能任意改变。因此,当处理这一类和时序相关的问题时,就需要一种能力更强的模型。原创 2022-10-25 10:11:11 · 339 阅读 · 0 评论 -
NLP自然语言处理学习笔记(五)(转自咕泡AI)
就是通常所说的分词,分出的每一个词语我们把它称为token。jieba分词:https://github.com/fxsjy/jieba为了对前面的word embedding这种常用的文本向量化的方法进行巩固,这里我们会完成一个文本情感分类的案例现在我们有一个经典的数据集IMDB,这是一份包含了5万条流行电影的评论数据,其中训练集25000条,测试集25000条。数据格式如下:下图左边为名称,其中名称包含两部分,分别是序号和情感评分,(1-4为neg,5-10为pos),右边为评论内容。原创 2022-10-23 15:57:10 · 255 阅读 · 0 评论 -
CCF大数据与计算智能大赛训练赛——图书推荐系统技术报告
该赛题为DataFoutain中的一道训练赛题目,赛题任务是依据真实世界中的用户-图书交互记录,利用机器学习相关技术,建立一个精确稳定的图书推荐系统,预测用户可能会进行阅读的书籍。原创 2022-10-21 23:52:07 · 2077 阅读 · 2 评论 -
天猫复购预测训练赛技术报告
逻辑回归[1](Logistic Regression,LR)是一种广义线性回归(Generalized Linear Model),在机器学习中是最常见的一种用于二分类的算法模型。决策树[2](Decision Tree,DT)是一种基本的分类与回归方法,本文主要讨论分类决策树,决策树模型呈树形结构,在分类问题中,表示基于特征对数据进行分类的过程。随机森林[3]原创 2022-10-21 23:34:44 · 4790 阅读 · 7 评论