Datamining
文章平均质量分 74
汗青传奇
这个作者很懒,什么都没留下…
展开
-
统计中几个模型
var模型:http://wenku.baidu.com/view/ee2a6ed084254b35eefd3420.html http://wenku.baidu.com/view/ff11fcfcc8d376eeaeaa3120.html 【http://wenku.baidu.com/room?fr=view】转载 2013-05-04 09:52:21 · 626 阅读 · 0 评论 -
概率图模型基础
以PLSA和LDA为代表的文本语言模型是当今统计自然语言处理研究的热点问题。这类语言模型一般都是对文本的生成过程提出自己的概率图模型,然后利用观察到的语料数据对模型参数做估计。有了语言模型和相应的模型参数,我们可以有很多重要的应用,比如文本特征降维、文本主题分析等等。本文主要介绍文本分析的三类参数估计方法-最大似然估计MLE、最大后验概率估计MAP及贝叶斯估计。1、最大似然估计MLE转载 2014-09-17 16:12:46 · 4187 阅读 · 0 评论 -
从最大似然到EM算法浅解
From:http://blog.csdn.net/zouxy09 从最大似然到EM算法浅解 机器学习十大算法之一:EM算法。能评得上十大之一,让人听起来觉得挺NB的。什么是NB啊,我们一般说某个人很NB,是因为他能解决一些别人解决不了的问题。神为什么是神,因为神能做很多人做不了的事。那么EM算法能解决什么问题呢?或者说EM算法是因为什么而来到这个世界上,还吸引转载 2016-07-07 22:02:25 · 711 阅读 · 0 评论 -
Python机器学习数据挖掘工具sklearn安装和使用
在windows平台下每次安装sklearn都感觉到非常麻烦,各种问题。包括numpy以及scipy的安装,最大的问题就是各种版本和依赖问题。特别是官方没有给出win64系统下对应的安装文件。非常麻烦。本文介绍借助于esay_install 和pip安装sklearn whl文件的方法。原创 2015-12-11 02:54:59 · 7171 阅读 · 0 评论 -
混合推荐策略
推荐系统中所使用的混合技术介绍2013年10月25日 ⁄ 字号 小 中 大 在推荐系统实际运用中,各种混合技术是其中一项极为重要的核心技术。在工程实践中我们发现,混合技术对提升推荐效果、改进推荐系统的性能等都有重要意义,因此本文对该专题进行如下的一些总结和介绍。引言在这个信息爆炸的时代,消费者面临众多选择、未知的领域、过载的信息时,往往无所适从;然而与此同时,内转载 2015-04-12 21:35:10 · 5158 阅读 · 1 评论 -
数据挖掘基础知识-矩阵(分解)
1. 矩阵知识://特征值,行列式,秩,对称矩阵,单位矩阵,正定半正定,雅可比等等!!正交矩阵:如果:AA'=E(E为单位矩阵,A'表示“矩阵A的转置矩阵”。)或A′A=E,则n阶实矩阵A称为正交矩阵, 若A为正交阵,则满足以下条件:1) AT是正交矩阵2) (E为单位矩阵)3) A的各行是单位向量且两两正交4) A的各列是单位向量且两两正交5) (Ax原创 2014-12-27 10:06:53 · 19621 阅读 · 3 评论 -
数据挖掘中所需的概率论与数理统计知识(补充)
1.极大似然估计原理详解:原创 2013-11-13 20:38:56 · 990 阅读 · 0 评论 -
Python机器学习神器:sklearn&numpy
一:安装:原创 2014-05-08 21:10:54 · 1392 阅读 · 0 评论 -
统计学习方法-主成分分析(Principal Component Analysis ,PCA )
主成分分析 ( Principal Component Analysis , PCA )是一种掌握事物主要矛盾的统计分析方法,它可以从多元事物中解析出主要影响因素,揭示事物的本质,简化复杂的问题。计算主成分的目的是将高维数据投影到较低维空间.原创 2013-09-27 10:48:07 · 11049 阅读 · 1 评论 -
谈谈优化问题
//待写!!原创 2013-12-24 22:58:33 · 625 阅读 · 0 评论 -
几款开源的数据挖掘工具
come from:http://idmer.blog.sohu.com/106647744.html;http://blog.csdn.net/liygcheng/article/details/17187765 本文的主要内容编译自Blaz Zupan和Janez Demsar的一篇论文(Open-Source Tools for Data Mining)。我仅仅选择其中的要点转载 2013-12-20 20:57:06 · 5387 阅读 · 0 评论 -
EM、隐马尔科夫模型、条件随机场
原创 2013-12-19 20:00:28 · 1007 阅读 · 0 评论 -
朴素贝叶斯
1.贝叶斯法则机器学习的任务:在给定训练数据D时,确定假设空间H中的最佳假设。最佳假设:一种方法是把它定义为在给定数据D以及H中不同假设的先验概率的有关知识下的最可能假设。贝叶斯理论提供了一种计算假设概率的方法,基于假设的先验概率、给定假设下观察到不同数据的概率以及观察到的数据本身。2.先验概率和后验概率用P(h)表示在没有训练数据前假设h拥有的初始概率。P(h)被原创 2013-11-12 22:05:33 · 836 阅读 · 0 评论 -
统计学习方法-Logistic(逻辑斯蒂)回归
reference: http://f.dataguru.cn/thread-128261-1-1.html我们在做线性回归分析时,其实是用y=mx+b直线去拟合我们的样本点,如果样本点和直线拟合很好,我们就可以得出样本点的线性相关性很强,通常用决定系数R2来表示。在寻找拟合直线的方法是最小二乘法,其实质就是找样本点离直线距离的最小平方和。这个我在白话线性回归中已经讲到。前面我都参考KHA原创 2013-11-11 18:23:19 · 5471 阅读 · 0 评论 -
话题模型-topic model
reference:http://blog.csdn.net/xianlingmao/article/details/70761651.话题模型(topic model)的提出及发展历史topic model 是一种应用十分广泛的产生式模型(generative model),在IR, NLP,ML都有广泛的应用,本文将对目前已有的topic model进行分类总结,然后选择几个代表性原创 2013-10-31 19:46:30 · 4623 阅读 · 1 评论 -
数据挖掘中所需的概率论与数理统计知识
come from:http://blog.csdn.net/v_july_v/article/details/8308762 向博主致敬! (关键词:微积分、概率分布、期望、方差、协方差、数理统计简史、大数定律、中心极限定理、正态分布)导言:本文从微积分相关概念,梳理到概率论与数理统计中的相关知识,但本文之压轴戏在本文第4节(彻底颠覆以前读书时大学课本灌输给你的观念,一探正态分转载 2013-11-06 16:05:15 · 1790 阅读 · 0 评论 -
K-means聚类
come from:http://www.csdn.net/article/2012-07-03/2807073-k-means摘要:在数据挖掘中,K-Means算法是一种 cluster analysis 的算法,其主要是来计算数据聚集的算法,主要通过不断地取离种子点最近均值的算法。在数据挖掘中,K-Means算法是一种cluster analysis的算法,其主要是来计算数据聚转载 2013-11-06 15:26:27 · 739 阅读 · 0 评论 -
数据挖掘领域大牛
OrganizationCountryAchim HoffmannUniversity of New South WalesAustraliaAd FeeldersUniversiteit UtrechtThe NetherlandsAda Waichee FuChinese University of Hong KongHong K转载 2013-10-29 15:35:47 · 3605 阅读 · 0 评论 -
几种概率语言模型和参数学习方法
From:http://blog.csdn.net/yangliuy/article/details/8330640 http://blog.csdn.net/yangliuy/article/details/8302599转载 2014-11-21 09:28:17 · 4420 阅读 · 0 评论