机器在学习
文章平均质量分 93
小喵分享机器学习、深度数学、数据挖掘和搜索推荐相关的文章和论文的阅读,尽可能的结合理论和代码,进行分析. 让我们一起用别人的轮子和造自己的轮子.
xiaoranone
知行合一,独善其身。
https://github.com/xiaorancs
展开
-
简单好用的特征选择器
featselectorfeatselector是一个基于统计分析和模型选择的特征选择器.Github: https://github.com/xiaorancs/feature-select背景特征过多会导致如下后果:引起维数灾难,模型推广能力差特征过于稀疏,模型效果不好很多冗余特征和相关性高的特征,降低模型精度在机器学习任务中,有两大难题:特征提取和选择模型选择和优...原创 2019-03-04 10:55:57 · 481 阅读 · 0 评论 -
统计学习方法笔记-决策树
统计学习方法笔记-决策树很多集成学习器,他们的基本模型都是决策树,我们经常提到的gbdt模型,它的基模型就是CRAT树.决策树是什么东西?就是我们平常所说的if-then条件,我们把它组合成树的结构. 决策树中有两种结点,叶子结点和非叶子结点. 其中非叶节点代表的条件,叶子结点表示的实例所属的类别.我们如何生成这个决策树呢,最主要的一点就是选择那个特征作为当前树的分割结点,这就叫做特征选择,...原创 2019-01-10 21:40:52 · 657 阅读 · 0 评论 -
统计学习方法-朴素贝叶斯
统计学习方法-朴素贝叶斯法先提出以下问题:朴素贝叶斯法、贝叶斯公式、贝叶斯估计分别是什么?贝叶斯公式的物理意义什么?贝叶斯网络是什么?朴素贝叶斯法朴素贝叶斯法 = 贝叶斯定理 + 特征条件独立.输入X∈RnX \in R^nX∈Rn空间是n维向量集合,输出空间y={c1,c2,...,cK}y=\{c_1,c_2,...,c_K\}y={c1,c2,...,cK}. 所有...原创 2018-12-27 11:15:41 · 327 阅读 · 0 评论 -
统计学习方法笔记-k近邻
统计学习方法-k近邻k近邻方法是一种惰性学习算法,可以用于回归和分类,它的主要思想是投票机制,对于一个测试实例xjx_jxj, 我们在有标签的训练数据集上找到和最相近的k个数据,用他们的label进行投票,分类问题则进行表决投票,回归问题使用加权平均或者直接平均的方法。算法和模型由于这个模型很容易理解,我们直接给出kNN分类模型其算法伪代码:输入:训练数据T={(x1,y1),(...原创 2018-12-25 13:23:50 · 324 阅读 · 0 评论 -
统计学习方法笔记-感知机
统计学习方法笔记-感知机感知机是一个二分类的监督模型,我们定义输入空间x∈Rnx \in R^nx∈Rn,每一个x都是用向量表示。输出空间y={+1,−1}y=\{+1,-1\}y={+1,−1}. 我们希望通过训练数据集合,学的权重参数w和偏置参数b,有:f(x)=sign(wx+b)f(x) = sign(wx+b)f(x)=sign(wx+b)sign函数是符号函数,表示如下:(1...原创 2018-12-15 17:13:09 · 278 阅读 · 0 评论 -
统计学习方法笔记-概述
统计学习方法笔记缘起统计学习方法是李航博士的经典只作,也是很多学习机器学习的同学入门必备的书籍。这本书结合理论和习题,可深可浅的讲述了机器学习算法的原理。之前也读过一遍这本书,现在之所以写《统计学习方法》笔记,主要是和两个小伙伴有一个学习计划,我们每两周进行一个分享会,然后我们的第一本书选择的就是李航博士的《统计学习方法》。这里主要是整理分享会中的内容,希望对大家有所帮助。统计学习方法概...原创 2018-12-12 19:56:56 · 236 阅读 · 0 评论 -
海量数据处理-字典树和倒排索引
海量数据处理-字典树和倒排索引海量数据处理我们已经提到过分而治之mapreduce,和排序相关的专题,今天我们来看一下之前也有简单介绍过的字典树和倒排索引。倒排索引倒排索引是一种索引方法,常用在搜索引擎中,这个数据结构是根据属性值来确定记录的位置。对于一批文档,我们的属性值就是关键字,对应值是包含该属性的文档的ID或者文化的位置。例如:T0 = {a,b,c}T1 = {a,...原创 2018-11-16 16:03:56 · 1554 阅读 · 1 评论 -
海量数据处理-重新思考排序2
海量数据处理--重新思考排序(2)如今互联网产生的数据量已经达到PB级别,如何在数据量不断增大的情况下,依然保证快速的检索或者更新数据,是我们面临的问题。在之前我们也提到过,然而在大数据处理的技术中,排序起到很重要的作用,可能不是直接使用,要不使用这用划分的思想,或者在小的方面使用到排序的方法,例如在在我们之前提到的Top k问题,用用到了堆排序中堆,在上一节介绍堆排序额时候,我们也给出了一个...原创 2018-11-08 17:14:31 · 430 阅读 · 0 评论 -
海量数据处理-重新思考排序
海量数据处理--重新思考排序(1)海量数据处理常用技术概述如今互联网产生的数据量已经达到PB级别,如何在数据量不断增大的情况下,依然保证快速的检索或者更新数据,是我们面临的问题。所谓海量数据处理,是指基于海量数据的存储、处理和操作等。因为数据量太大无法在短时间迅速解决,或者不能一次性读入内存中。在解决海量数据的问题的时候,我们需要什么样的策略和技术,是每一个人都会关心的问题。今天我们就...原创 2018-11-05 17:05:53 · 315 阅读 · 1 评论 -
海量数据处理-Topk引发的思考
海量数据处理–TopK引发的思考三问海量数据处理:什么是海量数据处理,为什么出现这种需求?如何进行海量数据处理,常用的方法和技术有什么?如今分布式框架已经很成熟了,为什么还用学习海量数据处理的技术?什么是海量数据处理,为什么出现这种需求?如今互联网产生的数据量已经达到PB级别,如何在数据量不断增大的情况下,依然保证快速的检索或者更新数据,是我们面临的问题。所谓海量数据处理,是指基...原创 2018-11-03 12:33:16 · 639 阅读 · 0 评论 -
海量数据处理--从分而治之到Mapreduce
海量数据处理常用技术概述如今互联网产生的数据量已经达到PB级别,如何在数据量不断增大的情况下,依然保证快速的检索或者更新数据,是我们面临的问题。所谓海量数据处理,是指基于海量数据的存储、处理和操作等。因为数据量太大无法在短时间迅速解决,或者不能一次性读入内存中。在解决海量数据的问题的时候,我们需要什么样的策略和技术,是每一个人都会关心的问题。今天我们就梳理一下在解决大数据问题的时候需要...原创 2018-11-02 19:54:53 · 1748 阅读 · 0 评论