机器学习
一只进阶的程序媛
好好工作,热爱生活
展开
-
集成学习总结(Bagging/Boosting)
目录前言一、Bagging1、随机抽样2、Bagging算法总述3、随机森林二、Boosting1、AdaBoost2、GBDT(梯度提升决策树)2.1 提升树模型(Boosting Tree)2.2 GBDT3、XGBoost三、Stacking前言集成学习是机器学习的一个重要分支,利用一种“三个臭皮匠赛过诸葛亮”的思想,通过某种方法将多...原创 2019-04-25 22:48:44 · 1034 阅读 · 0 评论 -
TF-IDF与余弦相似性的应用(一):自动提取关键词
原博链接:http://www.ruanyifeng.com/blog/2013/03/tf-idf.html这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到?这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域,...转载 2019-04-30 16:40:24 · 131 阅读 · 0 评论 -
(转载)TF-IDF与余弦相似性的应用(二):找出相似文章
原博链接:http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html上一次,我用TF-IDF算法自动提取关键词。今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,"Google新闻"在主新闻下方,还提供多条相似的新闻。为了找出相似的文章,需要用到"余弦相似性"(c...转载 2019-04-30 16:42:30 · 106 阅读 · 0 评论 -
Apriori算法进行关联分析总结
关联分析关联分析是一种在大规模数据集中寻找有趣关系的任务,可以有两种形式:频繁项集(frequent item sets):经常出现在一起的事务组合 关联规则(associational rules):两种事物间可能存在很强的关系支持度数据集中包含该项集的记录所占的比例置信度对于某一条规则Apriori因为要列举所有事物组合,计算次数呈指数增长,研究人员发现了Apr...原创 2019-05-24 13:41:49 · 884 阅读 · 0 评论 -
机器学习算法工程师面试集锦(更新中)
机器学习算法工程师面试集锦(更新中)面试问题汇总训练决策树时的参数是什么在决策树的节点处分割标准是什么基尼系数的公式熵的公式是什么决策树如何决定在哪个特征处分割随机森林的优点有哪些介绍一下boostinggradient boosting如何工作关于AdaBoost算法,你了解多少?它如何工作?SVM中用到了哪些核?SVM中的优化技术有哪些?SVM如何学习超平面?用数学方法详细解释一下。介绍一下无...原创 2019-06-27 00:30:08 · 3300 阅读 · 0 评论 -
windows下Anaconda安装torchtext
在安装torchtext之前先要装好torch,具体方法就是pytorch官网复制命令,也有很多教程可供参考,这里不再赘述。第一步conda activate pytorch-1.0 进入torch环境 2.第二步:前面(pytorch-1.0)表示已进入环境,接下来输入 pip install torchtext等待下载自动安装 3. 第三步进入python环境...原创 2019-06-27 00:18:48 · 4731 阅读 · 0 评论