- 博客(20)
- 资源 (2)
- 收藏
- 关注
转载 机器学习算法总结
原文机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。本文总结一下常见的机器学习算法,以供参考。机器学习的算法很多,很多算法是一类算法,而有些算法又是从其他算法中延伸出来的。 这里从两个方面进行总结,第一个方面是学习的方式,第二个方面是算法的类似性。一、学习方式 根据数据类型的不同,对一个问题的建模有不同的方式。在机器...
2019-04-21 22:26:54 827
转载 求解最优化问题的方法:拉格朗日乘子法(Lagrange Multiplier) 和KKT条件
在求解最优化问题中,拉格朗日乘子法(Lagrange Multiplier)和KKT(Karush Kuhn Tucker)条件是两种最常用的方法。在有等式约束时使用拉格朗日乘子法,在有不等约束时使用KKT条件。 我们这里提到的最优化问题通常是指对于给定的某一函数,求其在指定作用域上的全局最小值(因为最小值与最大值可以很容易转化,即最大值问题可以转化成最小值问题)。提到KKT条件一般会附带的...
2019-04-21 00:09:16 7887
转载 文本主题模型之LDA
文本主题模型之LDA(一) LDA基础 文本主题模型之LDA(二) LDA求解之Gibbs采样算法 文本主题模型之LDA(三) LDA求解之变分推断EM算法...
2019-04-21 00:04:08 680
转载 HMM(隐马尔可夫模型)
原文什么是熵(Entropy)简单来说,熵是表示物质系统状态的一种度量,用它老表征系统的无序程度。熵越大,系统越无序,意味着系统结构和运动的不确定和无规则;反之,,熵越小,系统越有序,意味着具有确定和有规则的运动状态。熵的中文意思是热量被温度除的商。负熵是物质系统有序化,组织化,复杂化状态的一种度量。熵最早来原于物理学. 德国物理学家鲁道夫·克劳修斯首次提出熵的概念,用来表示任何一种能...
2019-04-20 23:56:00 523
原创 重构_改善既有代码的设计
代码重构也是一种艺术,让代码不只是工艺品,也是艺术品;花了一周的时间,浏览了这本书,以下是本书的内容概要,书中还有很多实例可以帮助理解。由于本人现在使用更多的SQL,面对SQL脚本的重构,本书中的思想和思路还是很值得借鉴的。总归一句,代码重构的方法很多,适用场景各不相同,但重构的目的只有一个,那就是让代码更好的运作和维护。 ...
2018-12-19 20:53:30 145
转载 从贝叶斯方法谈到贝叶斯网络
原文0 引言 事实上,介绍贝叶斯定理、贝叶斯方法、贝叶斯推断的资料、书籍不少,比如《数理统计学简史》,以及《统计决策论及贝叶斯分析 James O.Berger著》等等,然介绍贝叶斯网络的中文资料则非常少,中文书籍总共也没几本,有的多是英文资料,但初学者一上来就扔给他一堆英文论文,因无基础和语言的障碍而读得异常吃力导致无法继续读下去则是非常可惜的(当然,有了一定的基础后,便可阅读更多...
2018-12-08 23:41:32 524
转载 EM算法推导
原文 EM算法也称期望最大化(Expectation-Maximum,简称EM)算法,它是一个基础算法,是很多机器学习领域算法的基础,比如隐式马尔科夫算法(HMM), LDA主题模型的变分推断等等。EM算法要解决的问题 我们经常会从样本观察数据中,找出样本的模型参数。 最常用的方法就是极大化模型分布的对数似然函数。 但是在一些情况下,我们得到的观察数据有未观察到的隐含数据...
2018-10-07 21:27:42 632
转载 聚类算法
1 聚类简述 聚类就是按照某个特定标准(如距离准则,即数据点之间的距离)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。我们可以具体地理解为,聚类后同一类的数据尽可能聚集到一起,不同类数据尽量分离。 聚类技术正在蓬勃发展,对此有贡献的研究领域包括数据挖掘、统计学、机器学习、空间数据库技术、生...
2018-10-05 23:36:49 4014
转载 AdaBoost算法讲解
原文:AdaBoost算法讲解、举例一: 算法介绍adaboost算法的目标是提高学习算法(比如说LMS算法)的分类准确率。adaboost算法提供的是框架。可以使用各种学习方法构建子分类器。二: 算法分析步骤:根据训练样本设计一个分类器,根据分类的结果,改变每个样本的权重,产生一个弱分类器,一直迭代,直到最后的误差率小于给定的误差率。把这些分类器合并起来,组成一个强分类器。一:从大小为n的原始样...
2018-07-02 10:07:25 535
转载 AdaBoost算法
原文:机器学习实战之AdaBoost算法一,引言 前面几章的介绍了几种分类算法,当然各有优缺。如果将这些不同的分类器组合起来,就构成了我们今天要介绍的集成方法或者说元算法。集成方法有多种形式:可以使多种算法的集成,也可以是一种算法在不同设置下的集成,还可以将数据集的不同部分分配不同的分类器,再将这些分类器进行集成。 adaBoost分类器就是一种元算法分类器,adaBoost分类器利用同一种基...
2018-07-01 17:58:13 500
原创 首席增长官
早在16年就听过团队同学分享过Growth Hacker的实战经验,觉得很奇妙,一直想系统的学习增长黑客的方法论,直到今年6月份才慢慢阅读完了两本增长黑客的相关书籍,一本是范冰老师的《增长黑客》,一本便是Simon的《首席增长官》,收获满满,花了点时间整理了下《首席增长官》的核心内容。...
2018-06-30 10:33:52 1639
转载 关联规则挖掘
原文关联规则挖掘基本概念定义一:设I={i1,i2,…,im}I={i1,i2,…,im},是m个不同的项目的集合,每个ikik称为一个项目。项目的集合I称为项集。其元素的个数称为项集的长度,长度为k的项集称为k-项集。引例中每个商品就是一个项目,项集为I={bread,beer,cake,cream,milk,tea}I={bread,beer,cake,cream,milk,tea},I的长度...
2018-06-26 17:24:46 1436
转载 bagging与boosting的概念及区别
原文集成学习通过构建并结合多个学习器来完成学习任务.只包含同种类型的个体学习器,这样的集成是“同质”的;包含不同类型的个体学习器,这样的集成是“异质”的.集成学习通过将多个学习器进行结合,常可获得比单一学习器显著优越的泛化性能.根据个体学习器的生成方式,目前的集成学习方法大致可分为两大类,即个体学习器间存在强依赖关系、必须串行生成的序列化方法,以及个体学习器间不存在强依赖关系、可同时生成的并行化方...
2018-06-18 14:42:17 516
转载 样本不均衡的一些处理技巧
原文(1) 数据层次的方法欠采样欠采样(undersampling)法是去除训练集内一些多数样本,使得两类数据量级接近,然后在正常进行学习。这种方法的缺点是就是放弃了很多反例,这会导致平衡后的训练集小于初始训练集。而且如果采样随机丢弃反例,会损失已经收集的信息,往往还会丢失重要信息。欠采样改进方法1但是我们可以更改抽样方法来改进欠抽样方法,比如把多数样本分成核心样本和非核心样本,非核心样本为对预测...
2018-06-17 15:53:04 10117 2
转载 微积分
第一节、微积分的基本概念1.1、极限 极限又分为两部分:数列的极限和函数的极限。1.1.1、数列的极限 定义 如果数列{xn}与常a 有下列关系:对于任意给定的正数e (不论它多么小), 总存在正整数N , 使得对于n >N 时的一切xn, 不等式 |xn-a |<e都成立, 则称常数a 是数列{xn}的极限, 或者称数列{xn}收敛于a , 记为或 也就是说,1....
2018-06-17 15:17:59 2709
转载 数据挖掘与数据分析
一、数据挖掘和数据分析概述数据挖掘和数据分析都是从数据中提取一些有价值的信息,二者有很多联系,但是二者的侧重点和实现手法有所区分。 数据挖掘和数据分析的不同之处: 1、在应用工具上,数据挖掘一般要通过自己的编程来实现需要掌握编程语言;而数据分析更多的是借助现有的分析工具进行。 2、在行业知识方面,数据分析要求对所从事的行业有比较深的了解和理解,并且能够将数据与自身的业务紧密结合起来;而数据挖掘不需...
2018-06-17 15:16:17 1215
转载 理解矩阵,矩阵背后的现实意义
对于线性代数的类似上述所提到的一些直觉性的问题,两年多来我断断续续地反复思考了四、五次,为此阅读了好几本国内外线性代数、数值分析、代数和数学通论性书籍,其中像 前苏联的名著《数学:它的内容、方法和意义》、 龚昇教授的《线性代数五讲》、 前面提到的Encounter with Mathematics(《数学概观》) 以及Thomas A. Garrity的《数学拾遗》都给我很大的启发...
2018-06-17 15:15:45 7752 3
转载 决策树与随机森林
原文一:概念 决策树是一种非线性有监督分类模型,随机森林是一种非线性有监督分类模型。线性分类模型比如说逻辑回归,可能会存在不可分问题,但是非线性分类就不存在。决策树是机器学习中最接近人类思考问题的过程的一种算法,通过若干个节点,对特征进行提问并分类(可以是二分类也可以使多分类),直至最后生成叶节点(也就是只剩下一种属性)。 决策树是一种简单但是广泛使用的分类器。通过训练...
2018-06-17 15:13:08 1282
转载 数据分析方法论
数据分析方法论主要有两大块:1)统计分析方法论:描述统计、假设检验、相关分析、方差分析、回归分析、聚类分析、判别分析、主成分与因子分析、时间序列分析、决策树等;2)营销管理分析方法论:SWOT、4P、PEST、SMART、5W2H、User behavior等。一、统计分析方法论:1.描述统计(Descriptive statistics):描述统计是通过图表或数学方法,对数据资料进行整理、分析,...
2018-06-14 16:31:20 821
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人