机器学习
文章平均质量分 94
上杉翔二
悠闲地不定期更新多模态、搜索推荐、基础技术、前沿追踪的翔二
展开
-
Intelligent information retrieval(智能信息检索综述)
智能信息检索最近看了超星上的微软关于搜索引擎和信息检索技术的一个课程:《智能信息检索》,这篇博文用于记录一些重点内容,详细课程可以去看raw video。1 search engine overview——system,algorithms and challenges搜索引擎主要流程如上图,从下到上主要有:Web-Crawler抓取网页。现有的网页总数超万亿,所以需要决定抓取哪些网页,并多长时间来更新网页(网页会有自己的更新与变动),特别是搜索公司只存快照(为了检索速度快,不可能对比所有网页原创 2021-04-29 20:33:42 · 3100 阅读 · 0 评论 -
Mixture of Gaussian(高斯混合原型聚类)
高斯混合聚类原理,应用。高斯混合模型(Gaussian Mixture Model ,GMM)也是原型聚类,和上一篇总结的K-means和LVQ一样,不过与它们不同的是,GMM没有想用原型向量来刻画聚类结构的不同。因为比如用k-means算法解决聚类问题非常简单,将数据聚为一个一个的点,但这样往往比较粗糙,不适用于很多数据集。所以是采用概率模型来表达原型,即通过统计得到每个样本点属于各个类的概率.......原创 2017-10-15 11:16:08 · 9100 阅读 · 4 评论 -
关联分析(Apriori)
Apriori原理,Python实现。之前总结的典型关联分析是目标通过计算数据间的相关系数来寻找多维度数据的关系,但直观来讲,在实际生活中如果某一件事总是和另一件事同时出现,那么这两件事之间一定是有某种关系的,比如著名的啤酒和尿布。那么如何来寻找这种关系呢?既然是“同时出现”,那么关注点就应该着眼于这些“频繁项集合”(frequent item sets,经常在一起的物品集合)..........原创 2017-10-17 14:42:05 · 2719 阅读 · 0 评论 -
Hierarchical Clustering(层次聚类)
层次聚类原理:唔?排序的图?分治?没错,与原型聚类和密度聚类不同,层次聚类试图在不同的“层次”上对样本数据集进行划分,一层一层地进行聚类。就划分策略可分为自底向上的凝聚方法(agglomerative hierarchical clustering),比如AGNES。自上向下的分裂方法(divisive hierarchical clustering),比如DIANA。AGNES先将所有样本的每个点.....原创 2017-10-15 13:27:04 · 46960 阅读 · 7 评论 -
Dimensionality Reduction(主成分分析PCA与线性判别分析LDA)
PCA原理,实现,应用。多重境界的理解。通常情况下,在收集数据集时会有很多的特征,这代表着数据是高冗余的表示,但是对于某个工程来说其实可能并不需要那么多的特征。所以就需要给数据进行降维(Dimensionality Reduction)。降维可以简化数据,使数据集更易使用,降低时间开销,而且能减少一部分噪音的影响,使最后的效果变好。比如上图中,如果进行降维后再进行分类,将会易于处理.........原创 2017-10-19 14:30:33 · 4742 阅读 · 0 评论 -
Expectation-Maximum(EM算法)
EM算法原理,深度理解。首先它是解决含隐变量(latent variable)情况下的参数估计问题,而求模型的参数时一般采用最大似然估计,由于含有了隐含变量,所以对似然函数参数求导是求不出来的,虽然通过梯度下降等优化方法也可以求解,但如果隐变量个数太多,将会带来指数级的运算。不过我们能知道在隐变量能观察到的情况下,最大似然法很简单,或者在知道参数的情况下,计算它的期望值也很容易.........原创 2017-10-14 17:44:54 · 8170 阅读 · 4 评论 -
Decision Tree(决策树--ID3,C4.5,CART)
决策树基本思想,Python实现,改进算法,sklearn应用,Weka应用。所谓三思而后行,步步为营。 决策树无处不在,在生活很常见。就让我继续沿用好朋友这个比方吧。比如,我们如何认定一个人是我们的好朋友呢?别回答我:靠感觉啊!我觉得感觉这种东西不就是经过层层神经元,然后大脑产生的一个信号?在一定程度上也是可以抽象出来的,比如神经网络就是模仿了人脑的某些机制。有关神经网络的部分之后总结...............原创 2017-10-10 11:36:17 · 8993 阅读 · 2 评论 -
K-means(K均值原型聚类)
K-means原理,python实现,改进,sklearn应用,SPSS应用。所谓物以类聚,人以群分。相似的人们总是相互吸引在一起。数据也是一样。在kNN中,某个数据以与其他数据间的相似度来预测其标签,而K-means是一群无标记数据间的因为自我相似的聚拢。显而易见,K-means的目标为簇内密集而簇间稀疏。简单来说就是首先先确定k个初始点作为质心,然后将数据集中的每一个点分配到一个距其最近的簇中..........原创 2017-10-14 18:07:05 · 10441 阅读 · 0 评论 -
机器学习信息论基础
信息论是应用数学的一个分支,主要研究的是对一个信号能够提供信息的多少进行量化,最初用于研究在一个含有噪声的信道上用离散的字母表来发送消息,指导最优的通信编码等,从这个角度看信息熵是求在最优编码时,最短的平均编码长度?交叉熵是编码不一定最优时(分布的估计不准),平均编码长度?相对熵则是编码不一定最优时,平均编码长度相对于最小值的增值。而在机器学习中经常需要使用它们的关键思想来描述概率分布或者量化概率原创 2018-01-22 14:06:15 · 6774 阅读 · 0 评论 -
Markov Chain Monte Carlo(MCMC采样)
MCMC由两个MC组成,即蒙特卡罗方法(Monte Carlo Simulation,简称MC)和马尔科夫链(Markov Chain ,也简称MC)。要弄懂MCMC的原理我们首先得搞清楚蒙特卡罗方法和马尔科夫链的原理。Monte Carlo方法:为什么要使用它?θ=∫abf(x)dx\theta = \int_a^b f(x)dxθ=∫abf(x)dx诸如上式求积分,但如果f(x)相当复...原创 2019-01-07 16:16:17 · 10382 阅读 · 0 评论 -
Automated Machine Learning (AutoML)
数据是这个时代的核心,基于数据所构建的模型和决策为工业自动化贡献了很多,也已经改变了很多企业的商业模式、产品等,改变了世界也收益颇丰。这也是时下大数据、人工智能炒作得如此火爆,甚至一些机器人智能威胁论也层出不穷。但实际上机器学习、深度学习和深度强化学习的能力实在很有限的,近日来在NLP任务中大杀四方的BERT就被开始质疑是否真的学习到了推理能力,是否只是依靠大量数据集本身特点,如一些线索词来进行工作,而一旦加入干扰和对抗,效果就与盲猜无异。不说废话了,这也是需要人的原因,多少人工才能创造多少智能。原创 2019-07-22 16:59:19 · 3448 阅读 · 0 评论 -
Density-Based Spatial Clustering of Applications with Noise(DBSCAN密度聚类)
DBSCAN原理,应用。基于密度的聚类(density-based clustering) 与之前的基于距离的K-means和GMM不同,此类算法意在通过样本分布的紧密程度确定聚类结构。通常情况下它是基于一组“邻域”(neighborhood)参数来刻画样本分布的紧密程度,通过考虑样本之间的可连接性,并介此不断扩展得到结果。参数(ϵ, MinPts)用来描述邻域的样本分布紧密程度。其中,ϵ描述了某一样.....原创 2017-10-15 12:16:53 · 4751 阅读 · 0 评论 -
Spectral Clustering(谱聚类和其他)
谱聚类原理,应用。是一种基于图论的聚类方法!!它将带权无向图划分为两个或两个以上的最优子图,使子图内部相似,而子图间相异,依然是很正统的聚类思想。这个思想乍看很简单,怎么度量相似?度量之后又如何进行划分?相似度度量: 普通的kNN度量方法?相近则权重大,相远则权重小。不过在实际应用中往往采用的全链接方法,即利用高斯分布来进行权重的赋予...........原创 2017-10-15 16:46:20 · 8773 阅读 · 1 评论 -
图技术基础(图查询,图计算,图表示,图特征,PageRank)
PageRank原理。当我们在使用Google这种搜素引擎的时候,它往往能以最权威,最完善,最被认同的答案回馈,而且十分安全,让我们不会轻易被钓鱼欺诈的网站所蒙骗。但是对于那么多的网页网站,那么多的答案,它是如何做的这么好的呢?Google的PageRank算法是根据网站的外部链接和内部链接的数量和质量来衡量网站的价值,这个概念引自学术中一篇论文的被引述的频度–即被别人引述的次数越多,一般判断这篇论......原创 2017-10-17 20:38:51 · 2510 阅读 · 0 评论 -
Logistic Regression(逻辑回归)
Logistic回归思想,Python实现,应用。Logistic 回归是与线性回归相对应的一种分类方法,是一种广义线性回归模型(generalized linear model)。该算法的基本概念由线性回归推导而出,比如上图,如果直接尝试线性拟合,然后根据其比率来判断其类别的话........原创 2017-10-12 19:51:39 · 2899 阅读 · 0 评论 -
Ensemble Learning(集成学习--AdaBoost,GBDT,Xgboost等)
集成学习原理,Python实现,应用。所谓兼听则明,偏信则暗。集成学习本身并不是一个单纯的新算法,它的目的是通过结合多个其他的机器学习模型来完成某个一个任务以提升最终结果的准确率,即三个臭皮匠赛过诸葛亮。从该思想出发自然可以想到,如何得到多个机器学习模型?又如何整合?基于此,集成学习也就有了多种形态。如果对不同类别.......原创 2017-10-14 14:09:53 · 3728 阅读 · 0 评论 -
Support Vecor Machine(SVM支持向量机)
支持向量机原理,Python实现,应用。在感知机的最后,说到它必须是在线性可分的条件下使用,正因为这样,满足条件的超平面可能会有多条,那么哪一条是最好的呢?直观上看,应该去找“正中间”的那条,因为它尽可能的讲样本分开,而且不易受到局部的干扰。首先和感知机一样,划分超平面的线性方程可为........原创 2017-10-14 09:43:35 · 1681 阅读 · 0 评论 -
k-Nearest Neighbors(k近邻)
kNN原理,Python实现,改进思想及算法,应用。所谓近朱者赤,近墨者黑,物以类聚,人以群分。如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。打个比方,如果与你关系好的(或最相似的)排名前k个好朋友大多数都喜欢机器学习,那么我可以做出预测:你本身是非常喜欢机器学习的......原创 2017-10-09 20:43:02 · 10967 阅读 · 4 评论 -
Bayesian(贝叶斯)
朴素贝叶斯原理,Python实现,改进思路和算法。虽然决策树抽象出了规则,方便了人的理解,但是严格按照决策树来判断新朋友能否成为好朋友感觉很困难,这个可能性能够把握吗?比如我和TA有80%的可能成为好朋友。又或者能将我的朋友们分为“三六九等”吗?....原创 2017-10-10 17:52:37 · 4440 阅读 · 0 评论 -
Perceptron(感知机与径向基)
感知机原理。为了使线性回归能用于分类,引入了logistic函数映射成比率来进行分类。但是从人的直观视角来看,对于如上图所示的点,能否在空间中直接就找到一条分割线呢?感知机学习的目标就是求得一个能够将训练数据集中正负实例完全分开的分类超平面。那么如何找这个超平面?......原创 2017-10-13 17:42:38 · 1565 阅读 · 0 评论 -
学生成绩预测和学业表现预警(EERNNM,GHANN-EC,HHA)
生成绩预测通过拿到学生的历史数据,如成绩,社交,其他行为等,预测学生的GPA,某课程的成绩,或者毕业后的发展预测等等。学生学业预警同上也是通过各种收集到数据,预测学生的状态是否处于异常,该任务的特点是如何做到及时的反馈。原创 2017-10-15 17:38:20 · 4939 阅读 · 2 评论 -
Linear Regression(线性回归)
线性回归原理,实现,应用。线性回归应该是机器学习最基本的问题了。它是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析,这种函数是一个或多个称为回归系数的模型参数的线性组合,只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归。如果数据集中的变量存在线性关系,那么其就能拟合地非常好。那么如何从一大堆数据里面求出回归方程呢?既然是求“线性回归”,那么我们期....原创 2017-10-12 18:52:03 · 9850 阅读 · 1 评论 -
Canonical Correlation Analysis(典型关联分析)
CCA原理,应用。关联分析,从线性回归开始! 同样是找样本之间的关系,在线性回归中是找通过拟合找出x和y的关系,当有多个维度时,也是一样找出Y=WX就可以了,但是这样我们会发现一个事实,那就是这个式子所代表的意义是Y的每个特征都于X所有的特征相关联,而它本身之间却没有联系。回归原点,如果将X和Y同等对待,考虑他们之间的相关性可以吗?可以的........原创 2017-10-16 20:37:28 · 4799 阅读 · 2 评论 -
FP-growth
FP-growth原理,Python实现。Apriori易于编码实现,而且通过Apriori规则减少了计算量,但在大数据下它运行的还是太慢了。于是基于Apriori的频繁模式增长(Frequent-Pattern Growth,FP-growth)算法出现了,它只需要对数据库进行两次遍历,所以能够显著加快发现频繁项集的速度,比Apriori的性能要好上2个数量级以上!! 为什么能这么快?原因在于它采用了一些不同的技.原创 2017-10-17 15:44:01 · 1392 阅读 · 2 评论