算法
junjie20082008
这个作者很懒,什么都没留下…
展开
-
tensorflow 评估指标中F1,AUC的计算
AUC计算的函数:tf.metrics.auc( labels, predictions, weights=None, num_thresholds=200, metrics_collections=None, updates_collections=None, curve='ROC', name=None, summation_method='trapezoidal')函数返回值: auc: A scalarTen.原创 2020-05-10 23:25:05 · 5964 阅读 · 0 评论 -
【转】NLP 的巨人肩膀(中)
3. 梯子的一级半除了在word级别的embedding方法上有大量模型和算法的涌现,同样地,在char级别、句子级别和段落级别同样有大量模型提出。word2vec开源随后的第一年,也就是在2014年,还是Mikolov,在他和另一位作者合作的一篇论文《Distributed Representations of Sentences and Documents》中,提出了可以借鉴word2...转载 2020-04-08 10:50:00 · 379 阅读 · 0 评论 -
【转】NLP的巨人肩膀(上)
我们都知道,牛顿说过一句名言If I have seen further, it is by standing on the shoulders of giants.无可否认,牛顿取得了无与匹敌的成就,人类历史上最伟大的科学家之一,但同样无可否认的是,牛顿确实吸收了大量前人的研究成果,诸如哥白尼、伽利略和开普勒等人,正因如此,联合国为了纪念伽利略首次将望远镜用作天文观测四百周年,200...转载 2020-04-08 10:47:10 · 364 阅读 · 0 评论 -
【转】NLP 的巨人肩膀(下)
摘要: 分类器足够简单,足够浅层,相比那些在这些分类任务上设计的足够复杂的模型来说简直不值一提。然而令人大跌眼镜的是,这些简单的分类器都能够比肩甚至超越他们各自时代的最好结果,这不能不说是个惊喜。而创造这些惊 ... tm网络模型框架自然语言处理 我们都知道,牛顿说过一句名言"If I have seen further, it is by standing on the...转载 2020-04-08 10:21:23 · 382 阅读 · 0 评论 -
NLP相关论文记录
1、ALBERT:https://openreview.net/pdf?id=H1eA7AEtvS 第一个技术是对嵌入参数化进行因式分解(factorized embedding parameterization)。通过将大的词汇表嵌入矩阵分解为两个小的矩阵,将隐藏层的大小与词汇表嵌入的大小分离开来。这种分离使得在不显著增加词汇表嵌入的参数大小的情况下,更容易增加隐藏大小。 ...原创 2020-03-21 19:21:49 · 195 阅读 · 0 评论 -
NLP基准测试总结
先把GLUE榜单地址挂上 :https://gluebenchmark.com/leaderboard/1、SQuAD(Stanford Question Answering Dataset)SQuAD是什么?SQuAD 是斯坦福大学于2016年推出的数据集,一个阅读理解数据集,给定一篇文章,准备相应问题,需要算法给出问题的答案。此数据集所有文章选自维基百科,数据集的量为当今其他数据集...原创 2020-03-21 19:05:00 · 917 阅读 · 0 评论 -
Bert源码解读
目前看到bert解读最好的是:https://blog.csdn.net/jiaowoshouzi/article/details/89388794原创 2020-02-14 14:53:05 · 141 阅读 · 0 评论 -
印地语的编码范围
印度语/印地语utf-8编码是 0900-097F:天城文书 (Devanagari)另外附上比较全的:https://blog.csdn.net/yanghongchang_/article/details/25025799原创 2019-07-27 11:38:25 · 1935 阅读 · 0 评论 -
关于fastText工具python版本在windows环境下准确率及召回率都是NaN的问题
如果使用python版本训练,则需要linux运行环境。python版本的库在windows下执行,计算的准确率及召回率都是NaN。原创 2019-03-22 10:48:59 · 1372 阅读 · 0 评论 -
维特比算法最浅显易懂的讲解
在网上看了很多的维特比算法的解析,然而还总是过段时间就忘记了,仔细想想应该还是自己没有完全彻底的弄明白维特比算法的真正含义。今天看到一篇文章,讲解的浅显易懂,醍醐灌顶。https://blog.csdn.net/athemeroy/article/details/79339546#小白给小白详解维特比算法一...原创 2019-03-12 16:30:59 · 485 阅读 · 0 评论 -
一种海量文章排重的算法
simhash是一种能计算文档相似度的hash算法。通过simhash能将一篇文章映射成64bit,再比较两篇文章的64bit的海明距离,就能知道文章的相似程序。若两篇文章的海明距离<=3,可认为这两篇文章很相近,可认为它们是重复的文章。转载 2016-11-29 11:35:17 · 2189 阅读 · 0 评论 -
scikit-learn包进行tf-idf计算
采用scikit-learn包进行tf-idf分词权重计算关键用到了两个类:CountVectorizer和TfidfTransformer,具体参见这里 一个简单的代码如下:[python] view plain copy # coding:utf-8 __author__ = "liuxuejiang" import转载 2016-12-14 11:11:40 · 752 阅读 · 0 评论 -
sklearn 用于文本分类
文本挖掘的paper没找到统一的benchmark,只好自己跑程序,走过路过的前辈如果知道20newsgroups或者其它好用的公共数据集的分类(最好要所有类分类结果,全部或取部分特征无所谓)麻烦留言告知下现在的benchmark,万谢!嗯,说正文。20newsgroups官网上给出了3个数据集,这里我们用最原始的20news-19997.tar.gz。分为以下转载 2016-12-14 11:15:14 · 2152 阅读 · 0 评论 -
基于gensim的Doc2Vec简析
1、Word2vec的基本原理先简述一下Word2vec相关原理,因为本文要讲述的doc2vec是基于Word2vec思想的算法。w2v的数学知识还比较丰富,网络上相关资料也很多。如果要系统的讲述,我可能会涉及包括词向量的理解、sigmoid函数、逻辑回归、Bayes公式、Huffman编码、n-gram模型、浅层神经网络、激活函数、最大似然及其梯度推导、随机梯度下降法、词向量与模型参数的转载 2016-12-16 18:20:46 · 2562 阅读 · 1 评论 -
使用文本挖掘实现站点个性化推荐
技术背景一条信息是否能够让用户感兴趣,主要取决于这条信息的内容是否是用户关注的内容。而将用户感兴趣的信息推送给对应的用户,可以更好地发挥该信息的价值,否则,不仅对应信息的价值无法有效发挥,甚至会引起用户的情绪,因为如果用户对这条信息不感兴趣,那么这条信息对于该用户来说就相当于垃圾信息。现在关键的问题是,如何判断出现有的信息中,哪些信息是用户感兴趣的信息,从而把这些用户可能感兴趣的信转载 2016-12-16 17:57:28 · 861 阅读 · 0 评论 -
string hash 函数
static longstring_hash(PyStringObject *a){ register Py_ssize_t len; register unsigned char *p; register long x; if (a->ob_shash != -1) return a->ob_shash; len转载 2016-12-16 16:39:54 · 473 阅读 · 0 评论 -
关于bidirectional_dynamic_rnn出现 Dimensions of inputs should match问题
在搭建双向BIRNN模型的时候,调用tensorflow自动展开函数bidirectional_dynamic_rnn(cell_fw, cell_bw, data, dtype=tf.float32)时候出现异常:InvalidArgumentError (see above for traceback): ConcatOp : Dimensions of inputs should match...原创 2019-01-04 11:03:43 · 4418 阅读 · 5 评论 -
闲话机器学习中偏差---方差权衡问题
机器学习中,寻找偏差与方差平衡是机器学习中的根本。 一般的,针对机器学习而言,数据集在模型训练中会被分为训练集(training data)、验证集(validation data)、测试集(test data)。其中,测试集是在模型训练好后,对该模型的客观评价,测试集数据一定不要参与训练。这里探讨的主要是偏差与方差的关系,测试集就不过多的探讨。模型的偏差=偏差+方差+不可消除的偏...原创 2019-02-21 16:08:36 · 381 阅读 · 0 评论 -
闲话深度神经网络中的正则化方法之一:Dropout
网上关于正则化的一些方法、以及Dorpout原理解释有很多,大家有感兴趣的可以百度。本文主要聊下inverted dropout。想看英文解释的可以查看《Regularization of Neural Networks using DropConnect》所谓inverted dropout,当模型使用了dropout layer,训练的时候只有占比为 p的隐藏层单元参与训练,那么在...原创 2019-03-01 11:00:04 · 349 阅读 · 0 评论 -
分类算法之贝叶斯网络--转自 T2噬菌体
2.1、摘要 在上一篇文章中我们讨论了朴素贝叶斯分类。朴素贝叶斯分类有一个限制条件,就是特征属性必须有条件独立或基本独立(实际上在现实应用中几乎不可能做到完全独立)。当这个条件成立时,朴素贝叶斯分类法的准确率是最高的,但不幸的是,现实中各个特征属性间往往并不条件独立,而是具有较强的相关性,这样就限制了朴素贝叶斯分类的能力。这一篇文章中,我们接着上一篇文章的例子,讨论贝叶斯分类中更转载 2015-10-27 09:55:32 · 374 阅读 · 0 评论