数据挖掘
data_rec
这个作者很懒,什么都没留下…
展开
-
分类中样本数据不平衡问题的解决方法
问题:研究表明,在某些应用下,1∶35的比例就会使某些分类方法无效,甚至1∶10的比例也会使某些分类方法无效。(1)少数类所包含的信息就会很有限,从而难以确定少数类数据的分布,即在其内部难以发现规律,进而造成少数类的识别率低(2)数据碎片。很多分类算法采用分治法,样本空间的逐渐划分会导致数据碎片问题,这样只能在各个独立的子空间中寻找数据的规律,对于少数类来说每个子空间中包含了很少的数据信息转载 2016-05-17 13:44:28 · 6391 阅读 · 0 评论 -
特征选择与特征学习
特征选择与特征学习在机器学习的具体实践任务中,选择一组具有代表性的特征用于构建模型是非常重要的问题。特征选择通常选择与类别相关性强、且特征彼此间相关性弱的特征子集,具体特征选择算法通过定义合适的子集评价函数来体现。 在现实世界中,数据通常是复杂冗余,富有变化的,有必要从原始数据发现有用的特性。人工选取出来的特征依赖人力和专业知识,不利于推广。于是我们需要通过机器来学习和抽取特征,促进特转载 2016-08-29 18:33:21 · 10805 阅读 · 0 评论 -
特征处理(Feature Processing)
特征工程(Feature Engineering)经常被说为机器学习中的black art,这里面包含了很多不可言说的方面。怎么处理好特征,最重要的当然还是对要解决问题的了解。但是,它其实也有很多科学的地方。这篇文章我之所以命名为特征处理(Feature Processing),是因为这里面要介绍的东西只是特征工程中的一小部分。这部分比较基础,比较容易说,所以由此开始。单个原始特征(或称为转载 2016-08-30 11:17:58 · 558 阅读 · 0 评论 -
通过矩阵求两个向量集中元素两两之间的欧氏距离(python实现)
在很多算法中都会涉及到求向量欧式距离,例如机器学习中的KNN算法,就需要对由训练集A和测试集B中的向量组成的所有有序对(Ai,Bi),求出Ai和Bi的欧式距离。这样的话就会带来一个二重的嵌套循环,在向量集很大时效率不高。这里介绍如何将这一过程用矩阵运算实现。假设有两个三维向量集,用矩阵表示: A=[a11a12a21a22a31a32]B=⎡⎣⎢⎢⎢b11b12b13b转载 2016-12-06 09:49:21 · 2088 阅读 · 0 评论 -
深入FFM原理与实践
FM和FFM模型是最近几年提出的模型,凭借其在数据量比较大并且特征稀疏的情况下,仍然能够得到优秀的性能和效果的特性,屡次在各大公司举办的CTR预估比赛中获得不错的战绩。美团点评技术团队在搭建DSP的过程中,探索并使用了FM和FFM模型进行CTR和CVR预估,并且取得了不错的效果。本文旨在把我们对FM和FFM原理的探索和应用的经验介绍给有兴趣的读者。前言在计算广告领域,点击率CTR(转载 2017-02-23 16:33:17 · 538 阅读 · 0 评论 -
适合大数据的聚类算法Mini Batch K-Means
K-Means算法是常用的聚类算法,但其算法本身存在一定的问题,例如在大数据量下的计算时间过长就是一个重要问题。为此,Mini Batch K-Means,这个基于K-Means的变种聚类算法应运而生。大数据量是什么量级?通过当样本量大于1万做聚类时,就需要考虑选用Mini Batch K-Means算法。但是,在选择算法时,除了算法效率(运行时间)外,算法运行的准确度也是选择算法的重转载 2017-07-24 12:03:45 · 29940 阅读 · 3 评论 -
蓄水池抽样
问题:在时间复杂度为O(n)下对大批量甚至未知大小的数据(N)等概率随机抽取k个数。抽样过程:顺序遍历数据N,遍历的前k个数据抽取出放入容量为k的“蓄水池”(称之为K),从第k+i(i>0)数据开始,以k/(k+i)的概率选择该数据并等概率随机替换K中元素。直到遍历结束。先不多说,撸一串代码(从0到999这一千个整数随机抽取10个):def sampling(k=10, N=np.原创 2016-11-18 14:49:54 · 358 阅读 · 0 评论