数学
文章平均质量分 74
TheSnowBoy_2
知乎:https://www.zhihu.com/people/wang-kang-84-84/activities
展开
-
TF-IDF与余弦相似性的应用(一):自动提取关键词
文章来源: 原文这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到?这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域,但是出乎意料的是,有一个非常简单的经典算法,可以给出令人相当满意的结果。它简单到都不需转载 2016-10-18 21:33:55 · 672 阅读 · 0 评论 -
TF-IDF与余弦相似性的应用(二):找出相似文章
文章来源 : 原文作者: 阮一峰日期: 2013年3月21日上一次,我用TF-IDF算法自动提取关键词。今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,"Google新闻"在主新闻下方,还提供多条相似的新闻。为了找出相似的文章,需要用到"余弦相似性"(cosine similiarity)。下面,我举一个转载 2016-10-18 21:36:10 · 589 阅读 · 0 评论 -
海量公开数据集
海量数据(又称大数据)已经成为各大互联网企业面临的最大问题,如何处理海量数据,提供更好的解决方案,是目前相当热门的一个话题。类似MapReduce、 Hadoop等架构的普遍推广,大家都在构建自己的大数据处理,大数据分析平台。相应之下,目前对于海量数据处理人才的需求也在不断增多,此类人才可谓炙手可热!越来越多的开发者把目光转移到海量数据的处理上。但是不是所有人都能真正接触到,或者有机会去处转载 2016-11-17 20:31:26 · 1548 阅读 · 0 评论 -
指标制定总结
指标制定层次分析法因子分析法权重确定指标权重确定方法之信息量权数法指标权重确定方法之熵权法 指标权重确定方法之优序图指标权重确定方法之专家排序法指标权重确定方法之独立性权系数法原创 2017-02-17 15:36:15 · 1113 阅读 · 0 评论 -
多元线性回归
目录建立多元线性回归模型准则线性处理非线性到线性转换1多项式模型2指数模型指数模型为3幂函数模型幂函数模型为4成长曲线模型该模型较为常用,原因:很多非线性问题可以转为线性问题。建立多元线性回归模型准则建立多元线性回归模型时,为了保证回归模型具有优良的解释能力和预测效果,应首先注意自变量的选择,其准则(百度百科)是: (1)自变量对因变量必须有显著的影响,并呈密切的线性相关; (2)转载 2017-06-04 10:52:26 · 2063 阅读 · 0 评论 -
数学常识汇总
数学建模统计统计图统计方法参数估计非参数估计非参数估计-指标假设检验矩阵数学建模【知乎】如何入门参与数学建模 【知乎】数学建模最重要的是思想方法么?统计统计图箱形图(Box-plot)是一种用作显示一组数据分散情况资料的统计图。 【MBAlib】箱形图统计方法参数估计参数统计需要对处理的数据做出假定,假定总体符合某种分布(比如,泊松分布,正态分布等),然后再去确定该分布下的参数。原创 2017-03-05 23:32:36 · 1134 阅读 · 0 评论 -
关于数学的一些观点
大卫·希尔伯特做数学的艺术在于找到一个特例,其中隐含了所有推广的胚芽。我们可以测量一个科学研究的重要性,借着数数看因为它而变得多余的出版物有多少。有时候一个人的视野圈变得越来越小,当半径接近零的时候它集中在一点。然后那个东西变成了他的观点。笛卡尔越学习,越发现自己的无知。怀疑是智慧的源头。仅仅具备出色的智力是不够的,主要的问题是如何出色地使用它。无法做出决策的人,或转载 2017-11-09 11:07:05 · 961 阅读 · 0 评论 -
对于概率论数字特征的理解
数字特征概述随机变量常见数字特征数学期望均值方差标准差协方差相关系数协方差矩阵参考数字特征概述 在我们学习概率论的时候,很多时候我们不能深刻理解概率论中的数字特征所具有的含义,本文章尝试去帮助读者理解一些术语、概念。 什么是数字特征?要回答这个问题,先得弄清楚什么是特征。特征是一个客体或一组客体特性的抽象结果。特征是用来描述概念的。任一客体或一组客体都具有众多特性,原创 2017-04-07 15:47:39 · 25773 阅读 · 7 评论