数据挖掘
阿泽的学习笔记
微信公众号:阿泽的学习笔记
展开
-
基于 Flink 的实时数据分析系统
最近在学 Flink,做了一个实时数据分析的 Demo,流程如下所示:Data Mock:作为生产者模拟数据,负责从本地文件系统中读取数据并发往 Kafka;Zookeeper:Kafka 的依赖;KafKa:消息队列,可以用于发布和订阅消息;Flink:流式处理引擎,作为消费者订阅 Kafka 的消息;ElasticSearch:搜索引擎,也可以作为实时存储引擎;Kibana:可视化 ElasticSearch 中的数据。除了看过两周 Flink 外,其他的框架都没有接触过,只是简单的原创 2020-09-18 10:51:37 · 4458 阅读 · 1 评论 -
【PTM】ALBERT:自监督学习的轻量级 BERT
今天阅读的是 Google 同学 2019 年的论文《ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS》。我们知道模型效果会随着模型深度的增加得到提升,然而模型深度的增加也会使得训练变得更困难,为了解决这个问题,Google 的同学提出了一个轻量级的 BERT:ALBERT,参数比 BERT-large 更少,且效果更好。1.Introduction通常来说,模型深度与模型效果成正比,但是模型越深也原创 2020-05-20 21:20:18 · 899 阅读 · 0 评论 -
【PTM】Transformer-XL:捕捉超长上下文依赖
今天学习的是谷歌大脑的同学和 CMU 的同学于 2019 年联合出品的论文《Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context》,目前被引次数超 200 次。这篇论文提出的 Transformer-XL 主要是针对 Transformer 在解决长依赖问题中受到固定长度上下文的限制,如 Bert 采用的 Transformer 最大上下文为 512。Transformer-XL 采用了一种 segment-lev原创 2020-05-20 21:16:42 · 698 阅读 · 0 评论 -
【PTM】GPT-2:四只角的独角兽
今天阅读的是 OpenAI 的同学于 2019 年发表的论文《Language Models are Unsupervised Multitask Learners》,目前具有 300 多引用量。在有了之前论文的基础后读这篇论文就比较简单了,论文介绍的是 OpenAI 对 GPT 的一个改进模型 GPT-2,其模型结构与 GPT 相比几乎没有什么变化,只是让模型变得更大更宽,并且取消了 Fine-tuning 的步骤。也就是说 GPT-2 采用了一阶段的模型(预训练)代替了二阶段的模型(预训练+微调),并原创 2020-05-20 21:15:09 · 962 阅读 · 0 评论 -
【PTM】GPT:通过预训练改善语言模型
今天阅读的是 OpenAI 2018 年的论文《Improving Language Understanding by Generative Pre-Training》,截止目前共有 600 多引用。在这篇论文中,作者提出了一种半监督学习方法——Generative Pre-Training(以下简称 GPT),GPT 采用无监督学习的 Pre-training 充分利用大量未标注的文本数据,利用监督学习的 Fine-tuning 来适配具体的具体的 NLP 任务(如机器翻译),并在 12 个 NLP 任原创 2020-05-20 21:12:54 · 1211 阅读 · 0 评论 -
【PTM】ELMo:通过预训练语言模型生成词向量
今天学习的是 AllenNLP 和华盛顿大学 2018 年的论文《Deep contextualized word representations》,是 NAACL 2018 best paper。这篇论文提出的 ELMo 模型是 2013 年以来 Embedding 领域非常精彩的转折点,并在 2018 年及以后的很长一段时间里掀起了迁移学习在 NLP 领域的风潮。ELMo 是一种基于语境的深度词表示模型(Word Representation Model),它可以捕获单词的复杂特征(词性句法),也可原创 2020-05-20 21:12:11 · 1798 阅读 · 0 评论 -
【PTM】Transformer:Attention Is All You Need
今天阅读的来自谷歌大脑的同学于 2017 年发表的论文《Attention Is All You Need》,目前论文被引次数高达 6100 次。Attention 机制是 Bengio 等同学在 2014 年提出的,并广泛应用于深度学习各个领域,如计算机视觉、NLP 等。其中,Seq2Seq 模型采用了 RNN 和 Attention 的结合成功应用于机器翻译领域,在诸多任务中都有显著的提升。在这篇文论文中,作者提出了 Transformer 网络架构,其摒弃了传统的 RNN、LSTM 架构,完全基于原创 2020-05-20 21:11:22 · 632 阅读 · 0 评论 -
【Embedding】EGES:阿里在图嵌入领域中的探索
今天学习的是阿里巴巴 2018 年的论文《Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba》。这是一篇比较实用的工业论文,提出了 Enhanced Graph Embedding with Side Information(以下简称 EGES)算法,旨在利用 Graph Embedding 的方法解决推荐系统在工业界中的三大问题:扩展性、稀疏性和冷启动问题。我们一起来看下论文,可以重点关注下如何利用 Si原创 2020-05-20 21:09:47 · 6200 阅读 · 2 评论 -
【Embedding】Airbnb:实时个性化搜索排序
今天学习的是一篇 2018 年的工业论文《Real-time Personalization using Embeddings for Search Ranking at Airbnb》,介绍的是 Word2Vec 在 Airbnb 推荐场景中的应用。大概内容就是从用户日志中抽取用户行为并组成序列,然后通过 Word2Vec 完成训练,最后得到 Item 的 Embedding Vector。虽然...原创 2020-05-20 21:07:12 · 603 阅读 · 0 评论 -
【Graph Embedding】SDNE:深度学习在图嵌入领域的应用
今天学的论文是清华大学崔鹏老师工作《Structural Deep Network Embedding》(后简称 SDNE),并发表于 2016 KDD,目前为止共有 880 多引用,是一个非常经典的将深度学习应用于 NetWork Embedding 的算法。SDNE 设计了一个由多层非线形函数组成的深度模型来捕捉高度非线性的网络结构,同时联合优化 first-order 和 second-o...原创 2020-05-20 21:06:13 · 1641 阅读 · 0 评论 -
【Graph Embedding】Node2Vec:一种有偏的随机游走
1. Introduction我们今天看的论文是斯坦福大学的同学 2016 年发表于的 ACM 的论文——《node2vec: Scalable Feature Learning for Networks》,到目前为止已经被引用 2600 多次。在这篇论文中作者提出了一个半监督学习算法——Node2Vec,采用了有偏的随机游走算法并结合 Skip-gram 算法学习 Network Embed...原创 2020-05-20 21:06:10 · 2810 阅读 · 0 评论 -
【Graph Embedding】fastText:极快的文本分类工具
今天我们来看 Mikolov 大佬 2016 年的另一大巨作——fastText。2013 年大佬在 Google 开源了 Word2Vec,2016 年刚就职于 FaceBook 就开源了 fastText,全都掀起了轩然大波。fastText 模型有两篇相关论文:《Bag of Tricks for Efficient Text Classification》《Enriching Wo...原创 2020-05-20 21:06:05 · 616 阅读 · 0 评论 -
【Graph Embedding】LINE:大规模信息网络的嵌入方法
今天的这篇论文是 MSRA 2015 年的工作——《LINE: Large-scale Information Network Embedding》,截至目前共有 1900 多引用,主要的是如何在大尺度网络中应用 Embedding 技术。1. Introduction之前介绍的 DeepWalk 采用分布式并行方式来训练模型,但如果在硬件资源有限的条件下该如何训练出一个拥有百万结点和数十亿条...原创 2020-05-20 21:06:02 · 1261 阅读 · 0 评论 -
【Graph Embedding】DeepWalk:图嵌入的一颗手榴弹
今天学习的是纽约州立大学石溪分校在 NetWork Embedding 的工作《DeepWalk Online Learning of Social Representations》,这篇文章于 2014 年发表于 ACM 会议,目前已经有 2700 多引用,是第一个将 Word2Vec 应用到 NetWork Embedding 并取得了巨大成功的方法。由于论文比较简单,所以直接进入主题。1...原创 2020-05-20 21:05:57 · 728 阅读 · 0 评论 -
【Graph Embedding】Word2Vec:词嵌入详解
IntroductionWord2Vec 是 Google 在 2013 年开源的一个词向量(Word Embedding)计算工具,其用来解决单词的分布编码问题,因其简单高效引起了工业界和学术界极大的关注。我们先尝试着回答几个问题,以检测下自己对 Word2Vec 的理解。Word2Vec 两个算法模型的原理是什么,网络结构怎么画?网络输入输出是什么?隐藏层的激活函数是什么?输出层的激...原创 2020-05-20 21:05:47 · 1035 阅读 · 0 评论 -
数据挖掘十大算法——简介
1. 简介ICDM(国际数据挖掘大会)2006年从18种提名的数据挖掘算法中投票选出了十大算法。这18中提名数据挖掘算法分属10大数据挖掘主题,红色部分即为最终选出的十大算法: 分类(Classification) C4.5 CART K Nearest Neighbours Naive Bayes 统计学习(Statistical Learning) SV...原创 2018-08-20 20:12:39 · 637 阅读 · 0 评论