2021年01月_StellaLiu萤窗小语

原创 HTML tags

<!DOCTYPE html><html><head> <meta charset="UTF-8"> <meta name="description" content="Item Recommendation"> <meta name="author" content="Your Name"> <title>Item Recommendation Final</title>&lt...

2021-01-29 08:02:06 559

sql练习精讲系列如何查找第N高的数据176.第二高的薪水滴滴面试题经典排名问题找出支付金额在累计前20%的用户连续出现N次类问题180. 连续出现的数字如何查找第N高的数据有一张“成绩表”，包含学生编号，选修课程的编号和成绩信息。现在需要找出某课程成绩第二高的学生成绩。这里以课程编号为“01”的同学为例。如果不存在第二高成绩的学生，那么查询应返回 null。 - 利用ORDER BY排序，再利用Limit限制 offset偏移，排除只有1个值情况结合IFNULL - 解释：先倒序排序去重，

2021-01-13 12:04:31 286

原创 facebook面试SQL

– 算排名CREATE DATABASE sqloa;use sqloa;CREATE TABLE sqloa (`Name` varchar(8), `Sales` int); INSERT INTO sqloa (`Name`, `Sales`)VALUES ('John', 10), ('Jennifer', 15), ('Stella', 20), ('Sophia', 40), ('Greg', 50), ('Je

2021-01-13 02:48:55 279

原创 bi-lstm

bi-lstmattention over attention的问题，优化的点首先将文档D和问题Q转化为one-hot向量，然后将one-hot向量输入embedding层，这里的文档嵌入层和问题嵌入层的权值矩阵共享，通过共享词嵌入，文档和问题都可以参与嵌入的学习过程，然后使用双向GRU分别对文档和问题进行编码，文档和问题的编码都拼接正向和反向GRU的隐藏层输出，这时编码得到的文档和问题词向量都包含了上下文信息。计算过程如图所示：文档的Contextual Embedding表示为h_doc，维度为

2021-01-04 01:18:52 468

原创 nlp2

nlp2各种词向量预训练比较:word2vecskip gram和cbow的优缺点负例采样和层次化softmax各自的优缺点介绍下Hierarchical Softmax，怎么更新参数Negative Sampling:word2vec的优缺点:FasttextgloveN-Gram主题模型seq2seq&attentiontransformerBERTALBERTELMOGPT-2XLNET短文本分类及情感分类对话和问答NLP其他问题各种词向量预训练比较:https://zhuanlan.zh

2021-01-04 01:17:17 305

转载 NLP复习1

正文一. 文本表示方法：基于one-hot、tf-idf、textrank等的bag-of-words；主题模型：LSA（SVD）、pLSA、LDA；基于词向量的固定表征：word2vec、fastText、glove基于词向量的动态表征：elmo、GPT、bert二. 什么是tf-idf？tf（Term Frequency）词频：指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化(一般是词频除以文章总词数), 以防止它偏向长的文件。idf（Inverse Document

2021-01-04 00:22:13 1817

anqi3776的博客