算法笔记
文章平均质量分 94
算法笔记
Espresso Macchiato
这个作者很懒,什么都没留下…
展开
-
算法笔记:Kmeans聚类算法简介
算法笔记:Kmeans聚类算法简介原创 2022-12-18 15:00:49 · 840 阅读 · 0 评论 -
推荐算法:HNSW算法简介
推荐算法:HNSW算法简介原创 2022-09-25 17:37:10 · 7607 阅读 · 5 评论 -
NLP笔记:浅谈字符串之间的距离
NLP笔记:浅谈字符串之间的距离0. 引言1. 汉明距离2. 最长公共子串3. 编辑距离4. jaccard距离5. bleu & rouge & ……6. 总结0. 引言故事起源于工作的一个实际问题,要分析两个文本序列间的相似性,然后就想着干脆把一些常见的字符串相似性内容一并整理一下好了。于是就大概写了一下这篇文章,大致涵盖了我所知的全部字符串相似度比较的方法,大致包括:汉明距离最长公共子串编辑距离jaccard距离bleu & rou..原创 2020-12-18 19:40:51 · 1977 阅读 · 5 评论 -
NLP笔记:常用loss function整理
NLP笔记:常用loss function整理1. 简介2. loss function整理1. MSE(Mean Square Error)2. MAE(Mean Abosolute Error)3. CrossEntropy4. KLDivergence5. Regularization3. 总结4. 参考链接1. 简介接上一篇博客【NLP笔记:常用激活函数考察整理】,这里,我们来考察一下机器学习中常用的一些损失函数。不过,说是整理,事实上实际写的时候才发现,..原创 2020-12-12 20:35:55 · 1178 阅读 · 1 评论 -
NLP笔记:常用激活函数考察整理
NLP笔记:常用激活函数考察整理0. 引言1. 常用激活函数1. sigmoid2. softmax3. relu系列1. relu2. leaky relu3. elu4. selu5. gelu6. 其他4. tanh5. 其他2. 总结3. 参考链接0. 引言这篇文章的起因是在于之前考察cross entroy相关的内容的时候,发现工具调用的太多了导致很多基础的内容被搞得生疏了,因此,就打算整两篇笔记来好好整理一下激活函数、损失函数等一些比较..原创 2020-12-05 22:02:51 · 1363 阅读 · 1 评论 -
NLP笔记:word2vec简单考察
NLP笔记:word2vec简单考察1. 简介2. word2vec原理介绍3. gensim实现4. tensorflow实现1. cbow方式2. skip gram方式3. 直接生成方式4. 结论5. pytorch实现1. cbow方式2. skip gram方式6. 总结7. 参考链接1. 简介word2vec是nlp之中蛮老的一个技术了,讲道理工作了两年多也基本没有用过这个玩意,除了刚开始工作的时候用了一下之后后面基本就是直接训练了。wo..原创 2020-11-28 21:10:58 · 2434 阅读 · 5 评论 -
NLP笔记:浅谈交叉熵(cross entropy)
NLP笔记:浅谈交叉熵(cross entropy)0. 引言1. 交叉熵的定义1. 信息熵2. 相对熵(KL散度)3. 交叉熵2. 交叉熵的实现1. tensorflow实现2. pytorch实现3. tensorflow与pytorch中交叉熵的区别4. 引申思考1. 两次softmax的影响2. 伪cross entropy合理性分析5. 参考链接0. 引言故事起源于我之前博客【NLP笔记:fastText模型考察】遇到的一个问题,即py..原创 2020-11-28 17:49:13 · 3803 阅读 · 2 评论 -
NLP笔记:fastText模型考察
NLP笔记:fastText模型考察1. fastText模型原理2. facebook的fastText模块使用3. 使用tensorflow构建fastText模型4. 使用torch构建fastText模型5. 总结6. 参考链接1. fastText模型原理fastText大约是NLP文本分类任务中最简单最直观的模型架构之一了,其原始文献详见参考链接2,facebook也提供了相应的开源工具,可以相当便利地用来训练一些nlp分类模型。网上其实已经有了不少有关fastte..原创 2020-11-17 21:39:04 · 809 阅读 · 3 评论 -
NLP笔记:ac自动机实现
ac自动机实现1. ac自动机简介2. ac自动机原理3. ac自动机实现1. ac自动机的构建2. ac自动机的调用4. 参考链接1. ac自动机简介ac自动机算法全称Aho–Corasick算法,它是一种经典的高效字符串匹配算法,他所针对的核心问题为:如何从一个长字符串中抽取出所有位于目标字典中的词汇。放到实际问题当中,一个典型的例子就是:在一串长文本当中,考察其中是否又出现敏感词并对其进行抽取。一种非常暴力的做法就是对关键词词表中的每个词进行查找,但..原创 2020-10-23 21:43:29 · 843 阅读 · 0 评论 -
NLP笔记:推荐问题常用metrics整理
NLP笔记:推荐问题常用metrics整理1. 简介2. 具体metrics指标考察1. 准确率 & 召回率2. 击中率3. MAP4. NDCG3. 总结4. 参考链接1. 简介推荐问题是现在互联网最核心的问题之一,从搜索体统到淘宝的用户推荐,一个好的推荐/搜索系统能够有效地提升用户的使用体验,从而更好地提升用户粘性,产生更高的经济效益。要把推荐问题做好,一个好的metrics定义就是必不可少的,从算法训练时候的算法指标到上线模型时AB测试使用的业务指标,..原创 2020-09-29 19:54:46 · 733 阅读 · 1 评论 -
NLP笔记:生成问题常用metrics整理
NLP笔记:生成问题常用metrics整理1. 生成问题的评估方法2. 常用metrics1. ppl2. bleu1. 句长惩罚因子BP2. n-gram字符匹配精度与权重因子3. 样例说明3. rouge4. bleurt3. 参考链接1. 生成问题的评估方法nlp中的生成问题大致可以涵盖以下一些部分:语言模型;文本翻译;内容概括 & 扩写;……本质而言,他就是要对一段机器生成的文本来评估其生成质量的好坏。有关这部分内容,他又可以..原创 2020-09-17 22:36:09 · 1927 阅读 · 4 评论 -
NLP笔记:分类问题常用metrics整理
NLP笔记:分类问题常用metrics整理0. 简介1. Accuracy2. Precision, Recall & F1 score1. TP, FP, FN, TN2. Precision3. Recall4. F1 score1. micro F12. macro F15. 代码实现样例3. ROC & AUC0. 简介这里,我们来考察一下NLP分类问题中常用的metrics定义。它们主要包括:Accuracy准确率(Pre..原创 2020-08-08 16:05:21 · 1165 阅读 · 0 评论 -
NLP笔记:中文分词工具简介
中文分词工具简介0. 引言1. jieba分词1. jieba分词的基本用法2. jieba分词的进阶版用法1. 全模式的分词2. 自定义领域词表加入3. 使用jieba进行关键词抽取1. tf-idf关键词抽取2. TextRank关键词抽取2. pyltp分词1. 分词模块调用方法2. pos模块调用方法3. ner模块调用方法4. dp模块调用方法5. srl模块调用方法3. sentencepiece分词1. sentencepiec..原创 2020-08-03 09:44:08 · 2520 阅读 · 3 评论