自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 资源 (1)
  • 收藏
  • 关注

原创 nlp的一个小测试:英文作文自动评分

最近这几天研究了一下英文作文自动评分系统,记录一下。首先我很简单的利用各个文章的词频数和线性回归进行测试一下。采用内置的停用词。最大词频数量为10000.# 统计文章中每篇文章的词频def get_count_vectors(essays): vectorizer = CountVectorizer(max_features=10000, ngram_range=(1, 3),...

2020-01-08 18:35:38 2848 1

原创 MLE最大似然估计和MAP最大后验概率的区别,利用MAP思想完成词性标注。

最近一直在搞懂啥是MLE,啥是MAP。MLE,最大似然估计,优化的是,求出它的最大值,其中是参数,D是数据;MAP,最大后验概率分布,优化的是,其中是参数,D是数据,通过贝叶斯定理可以认为等价于求,其中就是MLE,是先验分布。一般来说,这样就推导完了。MAP可以认为是MLE在多加一个先验概率,即在优化之前我们所掌握的信息。然后就是千篇一律的扔硬币举例,反正现在我明白MAP与MLE之间的关系...

2019-12-05 21:28:22 673 1

原创 nlp的一些应用

1.编写一个中文分词工具2.词干提取(stemming)和词形还原(lemmatization)3.拼写纠错GitHub链接:https://github.com/shange1996/Projects-for-NLP/tree/master/spelling_correction4.问答系统GitHub链接:https://github.com/shange1996/Pro...

2019-11-27 20:36:49 244

原创 简述决策树,随机森林和XGBOOST之间的关系

本文主要讲解:决策树,随机森林和xgboost,附带讲解AdaBoost和GBDT1.决策树这些算法都依赖于决策树或者决策树的各种魔改版,所以决策树是一定要掌握清楚的。决策树是一种常见的机器学习算法,决策树的目的是构造一种模型,使之能够从样本数据的特征属性中,通过学习简单的决策规则——IF THEN规则,从而预测目标变量的值。以西瓜的例子来说,给定类似色泽,根蒂以及敲声等特征,怎么判断一个...

2019-11-10 20:22:06 5800 1

原创 从理论上理解采用交叉熵作为损失函数的意义

简要解释为什么要使用交叉熵作为损失函数。用简短的话来解释就是:我们需要得到最大似然估计,即模型得到的预测分布应该与数据的实际分布情况尽可能相近。KL散度(相对熵)是用来衡量两个概率分布之间的差异。模型需要得到最大似然估计,乘以负Log以后就相当于求最小值,此时等价于求最小化KL散度(相对熵)。所以得到KL散度就得到了最大似然。又因为KL散度中包含两个部分,第一部分是交叉熵,第二部分是信息熵,即KL...

2019-11-04 21:46:22 3354 1

原创 详解seq2seq模型中的attention机制,并利用LuongAttention搭建中英机器翻译!

先从我的理解概括Attention机制:在面对一句话时,人们一般不会整句都看完再去理解其意义(如果这个句子较长)。在seq2seq模型中,一整个句子当作输入会给网络带来困扰,并且很有可能丢失序列中靠前的信息。而在decoder模型的输入时,我们同样利用context替换原本的输入。context则是利用这句话学习得到的权重乘以这句话,得到一个新的context。将contex与这句话相拼接,输入网...

2019-10-25 22:48:14 1872 1

原创 pytorch中关于pack_padded_sequence和pad_packed_sequence的解释。

已经有人解释的比较详细了,参考了一些我写在下面:总结就是一句话:以batch为一个单位,对补齐后的batch进行压缩计算最后解压。减少这个batch中大量pad对输出的影响。参考:https://zhuanlan.zhihu.com/p/34418001https://www.cnblogs.com/lindaxin/p/8052043.html如果已经看过类似解释的同学,可以直接...

2019-10-18 16:09:20 1713 1

附件,恐龙名字。请下载

附件,恐龙名字。请下载,代码中文件目录应改为正确的目录。

2019-10-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除