数据挖掘
rosenor1
这个作者很懒,什么都没留下…
展开
-
机器学习开放性问题考点
1. 推荐系统2. 搜索排序3. 广告点击率预测原创 2016-09-27 22:19:25 · 1144 阅读 · 0 评论 -
样本失衡会对SVM的影响
样本失衡会对SVM的影响假设正类样本远多于负类1、线性可分的情况假设真实数据集如下: 由于负类样本量太少,可能会出现下面这种情况使得分隔超平面偏向负类。严格意义上,这种样本不平衡不是因为样本数量的问题,而是因为边界点发生了变化2、线性不可分的情况源数据以及理想的超平面情况如下:很可能由于负类样本太少出现以下这种情况,超平面偏向负类转载 2016-08-25 21:19:45 · 10482 阅读 · 0 评论 -
lr-svm
LR-SVM(有待重新整理)参考:http://www.zhihu.com/question/26768865总结:1)在线学习:SVM不支持在线学习,LR支持2)不平衡数据:SVM不依赖于数据的分布,所以数据是否平衡影响不是很大(有影响的);LR依赖于数据的分布所以不平衡的数据需要进行平衡处理3)【解释2】SVM只受少数点的影响,同一类的数据的数量并不影响分类效果转载 2016-08-25 21:18:22 · 1089 阅读 · 0 评论 -
svmw问题整理
1、为什么要选择最大间隔分类器,请从数学角度上说明? 答:几何间隔与样本的误分次数间存在关系: 其中的分母就是样本到分类间隔距离,分子中的R是所有样本中的最长向量值2、样本失衡会对SVM的结果产生影响吗? 答:会,超平面会靠近样本少的类别。因为使用的是软间隔分类,而如果对所有类别都是使用同样的惩罚系数, 则由于转载 2016-08-25 21:17:11 · 3062 阅读 · 0 评论 -
各种算法优缺点
各种分类算法比较最近在学习分类算法,顺便整理了各种分类算法的优缺点。1决策树(Decision Trees)的优缺点决策树的优点:一、 决策树易于理解和解释.人们在通过解释后都有能力去理解决策树所表达的意义。二、 对于决策树,数据的准备往往是简单或者是不必要的.其他的技术往往要求先把数据一般化,比如去掉多余转载 2016-08-25 20:55:30 · 4729 阅读 · 0 评论 -
机器学习与数据挖掘整理
http://blog.csdn.net/to_xidianhph_youth/article/details/39260705转载 2016-09-16 22:21:13 · 371 阅读 · 0 评论 -
svm基本原理
1. 支持向量机的关键技术是什么?答: 支持向量机性能的优劣主要取决于核函数的选取,所以对于一个实际问题而言,如何根据实际的数据模型选择合适的核函数从而构造SVM算法.目前比较成熟的核函数及其参数的选择都是人为的,根据经验来选取的,带有一定的随意性.在不同的问题领域,核函数应当具有不同的形式和参数,所以在选取时候应该将领域知识引入进来,但是目前还没有好的方法来解决核函数的选取问题.转载 2016-09-16 22:17:32 · 3082 阅读 · 0 评论 -
常见机器学习算法比较
摘要:机器学习算法太多了,分类、回归、聚类、推荐、图像识别领域等等,要想找到一个合适算法真的不容易,所以在实际应用中,我们一般都是采用启发式学习方式来实验。本文主要回顾下几个常用算法的适应场景及其优缺点!(提示:部分内容摘自网络)。机器学习算法太多了,分类、回归、聚类、推荐、图像识别领域等等,要想找到一个合适算法真的不容易,所以在实际应用中,我们一般都是采用启发式学习方式来实验转载 2016-09-16 21:10:54 · 635 阅读 · 0 评论 -
CTR预估中GBDT与LR融合方案
CTR预估(Click-Through Rate Prediction)是互联网计算广告中的关键环节,预估准确性直接影响公司广告收入。CTR预估中用的最多的模型是LR(Logistic Regression)[1],LR是广义线性模型,与传统线性模型相比,LR使用了Logit变换将函数值映射到0~1区间[2],映射后的函数值就是CTR的预估值。LR这种线性模型很容易并行化,处理上亿条训练样本不是问转载 2016-09-16 21:07:16 · 529 阅读 · 0 评论 -
聚类
聚类分析是一种重要的人类行为,早在孩提时代,一个人就通过不断改进下意识中的聚类模式来学会如何区分猫狗、动物植物。目前在许多领域都得到了广泛的研究和成功的应用,如用于模式识别、数据分析、图像处理、市场研究、客户分割、Web文档分类等[1]。 聚类就是按照某个特定标准(如距离准则)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能转载 2016-09-16 14:56:51 · 1026 阅读 · 0 评论 -
短文本/Query分类算法特征选择
短文本/Query分类算法特征选择 最近工作中有一个project需要对query进行行业分类(label较多,大于1k),在以往的长文本中,一般使用文本的词向量结合tf-idf作为权重,分类的效果基本上还是非常不错。但是短文本,特征向量非常稀疏,一般一个 query只有1个或者几个特征,因而在覆盖率和准确率上将会大打折扣。本文的主要目的是对短文本的特征选择做一些尝试,语义特征主要分类转载 2016-09-16 10:12:15 · 3392 阅读 · 0 评论 -
文本特征提取
文本挖掘模型结构示意图1. 分词分词实例: 提高人民生活水平:提高、高人、人民、民生、生活、活水、水平分词基本方法: 最大匹配法、最大概率法分词、最短路径分词方法1.1 最大匹配法 中文分词在中文信息处理中是最最基础的,无论机器翻译亦或信息检索还是其他相关应用,如果涉及中文,都离不开中文分词,因此中转载 2016-09-16 09:51:37 · 2202 阅读 · 0 评论 -
信息增益(互信息)非负性证明
信息增益又称互信息,它是信息论的基本概念之一。同时,它在当今流行的人工智能领域也多有涉及。其中,著名的决策树算法IC3就是以信息增益作为贪心选择的依据。 信息增益的定义如下:转载 2016-09-03 21:53:05 · 8050 阅读 · 0 评论 -
从决策树学习谈到贝叶斯分类算法、EM、HMM
引言 最近在面试中(点击查看:我的个人简历,求职意向,择司标准),除了基础 & 算法 & 项目之外,经常被问到或被要求介绍和描述下自己所知道的几种分类或聚类算法(当然,这完全不代表你将来的面试中会遇到此类问题,只是因为我的简历上写了句:熟悉常见的聚类 & 分类算法而已),而我向来恨对一个东西只知其皮毛而不得深入,故写一个有关聚类 & 分类算法的系列文章以作为自己备试之用,甚转载 2016-09-03 20:44:29 · 2990 阅读 · 0 评论 -
机器学习中的损失函数
损失函数(loss function)是用来估量你模型的预测值f(x)与真实值Y的不一致程度,它是一个非负实值函数,通常使用L(Y, f(x))来表示,损失函数越小,模型的鲁棒性就越好。损失函数是经验风险函数的核心部分,也是结构风险函数重要组成部分。模型的结构风险函数包括了经验风险项和正则项,通常可以表示成如下式子:其中,前面的均值函数表示的是经验风险函数,L代表的是损失函数,后面转载 2016-08-24 17:07:40 · 9044 阅读 · 0 评论 -
进程和线程关系及区别
1.定义进程是具有一定独立功能的程序关于某个数据集合上的一次运行活动,进程是系统进行资源分配和调度的一个独立单位.线程是进程的一个实体,是CPU调度和分派的基本单位,它是比进程更小的能独立运行的基本单位.线程自己基本上不拥有系统资源,只拥有一点在运行中必不可少的资源(如程序计数器,一组寄存器和栈),但是它可与同属一个进程的其他的线程共享进程所拥有的全部资源.转载 2016-09-13 22:22:18 · 221 阅读 · 0 评论 -
生成模型与判别模型
生成模型与判别模型http://blog.csdn.net/zouxy09 一直在看论文的过程中遇到这个问题,折腾了不少时间,然后是下面的一点理解,不知道正确否。若有错误,还望各位前辈不吝指正,以免小弟一错再错。在此谢过。 一、决策函数Y=f(X)或者条件概率分布P(Y|X) 监督学习的任务就是从数据中学习一个模型(也叫分类器),应用转载 2016-08-26 15:26:58 · 406 阅读 · 0 评论 -
adaboost
一、Decision Stumps:Decision Stumps称为单层分类器,主要用作Ensemble Method的组件(弱分类器)。一般只进行一次判定,可以包含两个或者多个叶结点。对于离散数据,可以选取该属性的任意一个数据作为判定的分割点;对于连续数据,可以选择属性的一个阈值做为分割点进行判定(大于该阈值分配到一类,小于该阈值分配到另一类;当然也可以选取多个阈值并由此得到多个叶结点转载 2016-08-26 15:38:59 · 925 阅读 · 0 评论 -
knn常见问题汇总
一、kNN概念描述kNN算法又称为k最近邻(k-nearest neighbor classification)分类算法。所谓的k最近邻,就是指最接近的k个邻居(数据),即每个样本都可以由它的K个邻居来表达。kNN算法的核心思想是,在一个含未知样本的空间,可以根据离这个样本最邻近的k个样本的数据类型来确定样本的数据类型。 该算法涉及3个主要因素:训练转载 2016-08-26 15:40:42 · 9373 阅读 · 0 评论 -
谱聚类
如果说 K-means 和 GMM 这些聚类的方法是古代流行的算法的话,那么这次要讲的 Spectral Clustering 就可以算是现代流行的算法了,中文通常称为“谱聚类”。由于使用的矩阵的细微差别,谱聚类实际上可以说是一“类”算法。Spectral Clustering 和传统的聚类方法(例如 K-means)比起来有不少优点:和 K-medoids 类似,Spectr转载 2016-11-03 17:56:30 · 746 阅读 · 0 评论 -
LIBSVM中的核函数及其参数
LIBSVM中的核函数及其参数在LIBSVM中-t用来指定核函数类型(默认值是2)。0)线性核函数1)多项式核函数2)RBF核函数3)sigmoid核函数4)自定义核函数常用的四种核函数对应的公式如下: 首先介绍下与核函数相对应的参数:1)对于线性核函数,没有专门需要设置的参数2)对于多项式核函数,有三个参数。-d用来转载 2016-09-22 00:50:02 · 2114 阅读 · 0 评论 -
SVM的两个参数 C 和 gamma
SVM的两个参数 C 和 gamma2015-11-06 13:15 159人阅读 评论(0) 收藏 举报 分类: 数据结构及算法(158) SVM模型有两个非常重要的参数C与gamma。其中 C是惩罚系数,即对误差的宽容度。c越高,说明越不能容忍出现误差,容易过拟合。C越小,容易欠拟合。C过大或过小,泛化能力变差转载 2016-09-22 00:44:33 · 2483 阅读 · 0 评论 -
SVM训练结果参数说明 训练参数说明 归一化加快速度和提升准确率 归一化还原
http://blog.sina.com.cn/s/blog_57a1cae80101bit5.html原创 2016-09-08 22:06:09 · 2812 阅读 · 0 评论 -
svm参数详解
vm参数说明----------------------如果你要输出类的概率,一定要有-b参数svm-train training_set_file model_filesvm-predict test_file model_fileoutput_file自动脚本:python easy.py train_data test_data自动选择最优参数,自动进转载 2016-09-08 21:57:45 · 3742 阅读 · 0 评论 -
CART剪枝
Decision Tree:CART、剪枝 决策树的重要性和入门可以参考前面两篇文章,尤其是入门的ID3算法:http://isilic.iteye.com/blog/1841339、http://isilic.iteye.com/blog/1844097Classification And Regression Tree(CART)也是决策树的一种,并且是非常重要的决策树。除去上转载 2016-09-08 21:05:35 · 4771 阅读 · 0 评论 -
常用的机器学习算法优缺点
1决策树(Decision Trees)的优缺点决策树的优点:一、 决策树易于理解和解释.人们在通过解释后都有能力去理解决策树所表达的意义。二、 对于决策树,数据的准备往往是简单或者是不必要的.其他的技术往往要求先把数据一般化,比如去掉多余的或者空白的属性。三、 能够同时处理数据型和常规型属性。其他的技术往原创 2016-09-08 11:49:11 · 997 阅读 · 0 评论 -
常用算法整理
前言: 找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其非常感兴趣的话,可以考虑考虑该岗位,毕竟在机器智能没达到人类水平之前,机器学习可以作为一种重要手段,而随着科技的不断发展,相信这方面的人才需求也会越来越大。 纵观IT行业的招聘岗位,机器学习之类的岗位还是挺转载 2016-09-20 13:14:10 · 1859 阅读 · 0 评论 -
机器学习算法需要注意的一些问题
机器学习算法需要注意的一些问题原文:http://blog.csdn.net/xmu_jupiter/article/details/47108523对于机器学习的实际运用,光停留在知道了解的层面还不够,我们需要对实际中容易遇到的一些问题进行深入的挖掘理解。我打算将一些琐碎的知识点做一个整理。1 数据不平衡问题这个问题是经常遇到的。就拿有监督的学习的二分类问题来转载 2016-09-20 12:59:45 · 1900 阅读 · 0 评论 -
过拟合的解决方法
防止过拟合的处理方法过拟合 我们都知道,在进行数据挖掘或者机器学习模型建立的时候,因为在统计学习中,假设数据满足独立同分布(i.i.d,independently and identically distributed),即当前已产生的数据可以对未来的数据进行推测与模拟,因此都是使用历史数据建立模型,即使用已经产生的数据去训练,然后使用该模型去拟合未来的数据。但是一般独立同分布的转载 2016-08-27 10:17:33 · 1958 阅读 · 0 评论 -
机器学习常见问题
机器学习:伪代码实现:LR、梯度下降、最小二乘、KNN、Kmeans;基本知识:1)监督与非监督区别;2)L1L2区别;3)生成模型和判别模型区别算法的优缺点以及相应解决方案:k-means, KNN, apriori算法原理:LR、KNN、k-means、apriori、ID3(C45,CART)、SVM、神经网络,协同过滤,em算法常见问题:1)转载 2016-08-27 09:50:04 · 694 阅读 · 0 评论 -
hinge loss
Hinge Loss简介Hinge Loss是一种目标函数(或者说损失函数)的名称,有的时候又叫做max-margin objective。其最著名的应用是作为SVM的目标函数。其二分类情况下,公式如下: l(y)=max(0,1−t⋅y)其中,y是预测值(-1到1之间),t为目标值(±1)。其含义为,y的值在-1到1之间就可以了,并不鼓励|y|>1,即并不鼓励转载 2016-08-26 20:33:27 · 842 阅读 · 0 评论 -
朴素贝叶斯
本文主要描述了朴素贝叶斯分类方法,包括模型导出和学习描述。实例部分总结了《machine learning in action》一书中展示的一个该方法用于句子感情色彩分类的程序。1方法概述学习(参数估计)实现:朴素贝叶斯下的文本分类模型概述朴素贝叶斯方法,是指朴素:特征条件独立贝叶斯:基于贝叶斯定理根据贝叶斯定理,对一个分类问题,给定样本特征x,样本属于转载 2016-09-18 22:37:28 · 526 阅读 · 0 评论 -
互联网广告综述之点击率特征工程
互联网广告综述之点击率特征工程一.互联网广告特征工程博文《互联网广告综述之点击率系统》论述了互联网广告的点击率系统,可以看到,其中的logistic regression模型是比较简单而且实用的,其训练方法虽然有多种,但目标是一致的,训练结果对效果的影响是比较大,但是训练方法本身,对效果的影响却不是决定性的,因为训练的是每个特征的权重,权重细微的差别不会引起ctr的巨大转载 2016-09-18 22:31:20 · 335 阅读 · 0 评论 -
聚类
4、聚类聚类分析提供由个别数据对象到数据对象所指派到簇的抽象。此外,一些聚类技术使用簇原型(即代表簇中其他对象的数据对象)来刻画簇的特征。聚类分析是研究发现最具有代表性的簇原型的技术。回归和PCA的时间复杂度都是O(m2)。注意:簇的定义是不精确的,而最好的定义依赖于数据的特征和期望的结果。聚类分析与其他将数据对象分组的技术有关。监督学习(也叫监督分类或分类):使用一个由类标号已知的对象开转载 2016-08-26 15:44:13 · 18296 阅读 · 0 评论 -
文本分类入门
文本分类系列文章,从文本分类问题的定义开始,主要讲解文本分类系统的构成,主流的统计学习方法以及较为优秀的SVM算法及其改进。 一个文本(以下基本不区分“文本”和“文档”两个词的含义)分类问题就是将一篇文档归入预先定义的几个类别中的一个或几个,而文本的自动分类则是使用计算机程序来实现这样的分类。通俗点说,就好比你拿一篇文章,问计算机这文章要说的究竟是体育,经济还是教育,计算机答不上转载 2016-09-13 17:50:13 · 561 阅读 · 0 评论 -
机器学习中的范数规则化之(二)核范数与规则项参数选择
http://blog.csdn.net/zouxy09 上一篇博文,我们聊到了L0,L1和L2范数,这篇我们絮叨絮叨下核范数和规则项参数选择。知识有限,以下都是我一些浅显的看法,如果理解存在错误,希望大家不吝指正。谢谢。 三、核范数 核范数||W||*是指矩阵奇异值的和,英文称呼叫Nuclear Norm。这个相对于上面火热的L1转载 2016-08-23 00:52:45 · 731 阅读 · 0 评论 -
机器学习中的范数规则化之(一)L0、L1与L2范数
机器学习中的范数规则化之(一)L0、L1与L2范数http://blog.csdn.net/zouxy09 今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化。我们先简单的来理解下常用的L0、L1、L2和核范数规则化。最后聊下规则化项参数的选择问题。这里因为篇幅比较庞大,为了不吓到大家,我将这个五个部分分成两篇博文。知识有限,以下都是我一些浅显的看法,转载 2016-08-23 00:51:06 · 559 阅读 · 0 评论 -
机器学习他人面经
前言: 找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其非常感兴趣的话,可以考虑考虑该岗位,毕竟在机器智能没达到人类水平之前,机器学习可以作为一种重要手段,而随着科技的不断发展,相信这方面的人才需求也会越来越大。 纵观IT行业的招聘岗位,机器学习之类的岗位还是挺转载 2016-08-31 18:44:44 · 1100 阅读 · 0 评论 -
最小二乘法与极大似然估计的区别与联系
最小二乘法基本思想简单地说,最小二乘的思想就是要使得观测点和估计点的距离的平方和达到最小.这里的“二乘”指的是用平方来度量观测点与估计点的远近(在古汉语中“平方”称为“二乘”),“最小”指的是参数的估计值要保证各个观测点与估计点的距离的平方和达到最小 θ表示要求的参数,Yi为观测值(向量),f(xi|θ)为理论值。最小二乘的作用用于得到回归方程的参转载 2016-08-21 16:41:11 · 20589 阅读 · 0 评论 -
离散与维数灾难
http://blog.csdn.net/dark_scope/article/details/8252969转载 2016-08-21 14:57:56 · 578 阅读 · 0 评论