我的搬砖人生
小菜菜forever
这个人很懒,没留下什么东西
展开
-
假设检验
背景如果这位女士不具备品尝能力,那么,她能够品对1杯的概率有50% 。在这种情况下,即使她品对了,我们也不会立刻就相信她有这种能力,因为这种概率太高了,理论上一半人都可以做到。但是,如果给她8杯,她都品对了,那么,在这种情况下,我们就不得不重新考虑。因为如果她不具备这种能力,仅凭猜测而都猜对的概率实在太低了,只有0.39%, 以至于我们不得不怀疑一开始所做假设(这位女士不具备这种能力)的正确性。1. 假设检验检验我们的假设是否正确,也就是说,先要有一个假设,然后才谈得上检验。一般我们会从正面做出假设原创 2020-12-16 19:47:06 · 506 阅读 · 0 评论 -
Boostrap、Bagging和Boosting
Bootstrap思想:利用小样本的分布来估计总体真实的分布,在小样本时效果很好Bagging属于集成学习的一种,从训练集从进行子抽样组成每个基模型所需要的子训练集。抽个要放回去,对所有基模型预测的结果进行综合产生最终的预测结果。代表:随机森林(RF),可以既可以处理属性为离散值的量,比如ID3算法来构造树,也可以处理属性为连续值的量,比如C4.5算法来构造树。结果为少数服从多数,多个决策树的投票结果。随机森林中的分类器是并行生成的。Boosting一种框架算法,用来提高弱分类器准确度的方法。Bo原创 2020-12-16 18:16:59 · 296 阅读 · 1 评论 -
实体抽取和远程监督
1. 实体关系抽取定义: 抽取一个句子中实体对之间的关系。解决思路: 想要训练一个关系抽取器,给它一个句子俩实体,首先它需要知道给这俩实体间的关系打个什么标签,模型不可能自己给关系取名字,所以肯定需要人用标注好的语料告诉他,这俩实体间的关系叫啥。然后模型训练好了,再遇到哪个句子里有这种实体对,他就会知道是这个关系并抽出来。监督学习、无监督学习、自助学习(从数据集中选取一批种子实例(seed instances),学习完这些种子实例之后应用到大规模语料库中)2. 远程监督...原创 2020-12-15 15:52:55 · 372 阅读 · 0 评论 -
PageRank和带重启的随机游走算法
1. PageRank基本原理Pagerank算法是Google的网页排名算法,由拉里佩奇发明。其基本思想是民主表决。在互联网上,如果一个网页被很多其他网页所链接,说明它受到普遍的承认和信赖,那么它的排名就高。同时,排名高的网站链接可靠,所以这些链接的权重会更大。网页的排名来自于所有指向这个网页的其他网页的权重之和。y的排名=x1+x2+x3+x4=0.081=x_1+x_2+x_3+x_4=0.081=x1+x2+x3+x4=0.081接下来的问题是x1,x2,x3,x4x_1,x_2,x原创 2020-12-16 18:17:22 · 1552 阅读 · 0 评论