- 博客(10)
- 收藏
- 关注
原创 图神经网络学习笔记
图神经网络 图(graph)是一种数据结构,常见的图结构由节点(node)和边(edge)构成,节点包含了实体(entity)信息,边包含实体间的关系(relation)信息。图神经网络(Graph Neural Network)是深度学习在图结构数据上的一些模型、方法和应用。GNN主要分为图卷积网络(GCN)、基于注意力更新的图网络(GAT)、基于门控的更新的图网络、具有跳边的图网络。 CNN是GNN起源的首要动机。CNN有能力去抽取多尺度局部空间信息
2020-08-21 06:44:58 474
原创 腾讯广告算法大赛学习笔记
比赛描述 众所周知,像用户年龄和性别这样的人口统计学特征是各类推荐系统的重要输入特征,其中自然也包括了广告平台。这背后的假设是,用户对广告的偏好会随着其年龄和性别的不同而有所区别。许多行业的实践者已经多次验证了这一假设。然而,大多数验证所采用的方式都是以人口统计学属性作为输入来产生推荐结果,然后离线或者在线地对比用与不用这些输入的情况下的推荐性能。本届大赛题目尝试从另一个方向来验证这个假设,即以用户在广告系统中的交互行为作为输入来预测用户的人口统计学属性。数据介绍
2020-08-14 05:34:27 369
原创 集成学习学习笔记
集成学习学习笔记集成学习随机森林GBDTXgboost实验模型测试结果集成学习 集成学习 (ensemble learning)通过构建并结合多个学习器来完成学习任 务,有时也被称为多分类器系统 (multi-classifier system)。集成学习的一般结构如下图所示,先产生一组个体学习器,再用某种策略将它们结合起来。 集成学习通过将多个学习器进行结合,常可获得比单一学习器显著优越的泛化性能,但在实践中出于种种考虑,例如希望使用较少的个体学
2020-08-07 06:01:12 192
原创 端到端学习与多任务学习笔记
机器学习笔记端到端学习多任务学习分类特征学习方法参数学习方法实验数据处理模型端到端学习 端到端学习指所有参数货原先几个步骤需要确定的参数被联合学习,而不是分步骤学习。端到端学习的关键是是否有足够的数据能够直接学到从x映射到y足够复杂的函数。它可以运用在语音识别、人脸识别、机器翻译等领域。 端到端学习最大的优点就是简洁,不需要设计特别复杂的过程。但其缺点就是数据冗余,许多与问题无关的数据或者信息严重影响最终结果,或者导致模型庞大,优化困难。如果设计合理
2020-07-30 22:56:03 718
原创 注意力机制学习笔记
注意力机制学习笔记注意力机制Encoder-Decoder机制全局注意力局部注意力自注意力机制实验数据预处理模型训练及测试 注意力机制最初是一种在编码器-解码器结构中使用到的机制,在多种任务中使用:机器翻译、图像转换等。如今,注意力机制在深度学习模型中无处不在,而不仅仅是在编码器-解码器上下文中使用。注意力机制Encoder-Decoder机制 如上图所示,编码器将输入嵌入为一个向量, 解码器根据这个向量得到输出。由于这种结构一般的应用场景(机器
2020-07-24 05:02:36 290
原创 文本分类模型学习笔记
文本分类模型学习笔记TextCNN模型结构RCNN实验数据集预处理模型内容模型训练模型测试 近年来,深度学习模型在计算机视觉和语音识别中取得了显著成果。在自然语言处理中,深度学习方法的许多工作都涉及通过神经语言模型来学习单词向量表示,并在学习的词向量进行分类。CNN模型最初是为计算机视觉而发明的,后来被证明对NLP有效,并且在语义解析、查询检索、句子建模等方面均取得了优异的成绩。 下面对TextCNN及RCNN的模型进行介绍,并在此基础上进行实验。T
2020-07-16 21:09:16 340
原创 神经网络学习笔记
近年来,深度学习技术在自然语言处理、计算机视觉等多个人工智能领域得 到了广泛的应用,获得了很大的成功。传统的机器学习算法通常结构较浅,比如 支持向量机和逻辑回归等算法。浅结构模型很难学习复杂的功能,对自然语言处 理等复杂任务的学习能力比较有限,通常需要手动定义特征。深度学习模型表现 力强,能很好地适应复杂的函数,从数据中自动学习有用的功能,从而减轻人为 的干预。随着深度学习在自然语言处理领域的成熟,应用于问答系统的深度学习方法 越来越多,最常用的是循环神经网络、卷积神经网络、注意力机制等。这些深度 学习方
2020-07-09 22:10:09 869
原创 BERT学习笔记
BERT学习笔记BERT介绍背景模型输入预训练MLMNSP微调BERT源码分析create_pretraining_data.pyextract_features.pymodeling.pyrun_classifier.pytokenization.pyBERT情感分类实验环境数据来源下载预训练模型修改processor模型训练总结 BERT的全称是Bidirectional Encoder Representation from Transformers,即双向Transf
2020-07-02 21:23:05 998
原创 word2vec学习笔记
数据来源训练使用的语料库来自维基百科的中文语料库,下载地址为:https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2数据预处理繁体转换成简体由于原始语料中有繁体文字,因此需要将其先统一转换为简体字,方便后面进行处理,使用python的zhconv库对每一行调用convert函数进行操作。import zhconvlines = input_file.readlines()for line i
2020-06-26 08:27:48 216
原创 自然语言处理中的中英文分词工具
自然语言处理中的中英文分词工具jieba中文分词jieba库的安装jieba的基本功能jieba简单运用nltk英文分词nltk及nltk_data的安装nltk的基本功能nltk的简单运用总结分词是自然语言处理的基础,分词的准确度直接决定了后面的词性标注、句法分析、词向量以及文本分析的质量。英文语句使用空格将单词进行分隔,除了某些特定词,如New York等。但中文不同,天然缺少分隔符,需要自行分词和断句。目前,中文常用的分词工具有jieba“结巴”中文分词、哈工大LTP等;英文常用的分词工具有nlt
2020-06-18 08:01:29 3725
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人