机器学习笔记
文章平均质量分 84
xiaoranone
知行合一,独善其身。
https://github.com/xiaorancs
展开
-
ubuntu搭建scikit-learn环境及pydev+eclipse
安装ubuntu 1.1 下载镜像文件 在下述链接中下载对应版本Ubuntu镜像文件. http://www.ubuntu.org.cn/download/ubuntu-kylin 1.2 制作启动盘 找一个大于2G的U盘制作启动盘,工具推荐使用大白菜,里面有ISO模式,选择下载下来的镜像文件点击制作启动盘即可。下载链接:http://www.dabaicai.net.cn/ 1.3 安转载 2016-07-24 22:00:24 · 783 阅读 · 0 评论 -
海量数据处理--从分而治之到Mapreduce
海量数据处理常用技术概述如今互联网产生的数据量已经达到PB级别,如何在数据量不断增大的情况下,依然保证快速的检索或者更新数据,是我们面临的问题。所谓海量数据处理,是指基于海量数据的存储、处理和操作等。因为数据量太大无法在短时间迅速解决,或者不能一次性读入内存中。在解决海量数据的问题的时候,我们需要什么样的策略和技术,是每一个人都会关心的问题。今天我们就梳理一下在解决大数据问题的时候需要...原创 2018-11-02 19:54:53 · 1752 阅读 · 0 评论 -
海量数据处理-重新思考排序
海量数据处理--重新思考排序(1)海量数据处理常用技术概述如今互联网产生的数据量已经达到PB级别,如何在数据量不断增大的情况下,依然保证快速的检索或者更新数据,是我们面临的问题。所谓海量数据处理,是指基于海量数据的存储、处理和操作等。因为数据量太大无法在短时间迅速解决,或者不能一次性读入内存中。在解决海量数据的问题的时候,我们需要什么样的策略和技术,是每一个人都会关心的问题。今天我们就...原创 2018-11-05 17:05:53 · 317 阅读 · 1 评论 -
海量数据处理-重新思考排序2
海量数据处理--重新思考排序(2)如今互联网产生的数据量已经达到PB级别,如何在数据量不断增大的情况下,依然保证快速的检索或者更新数据,是我们面临的问题。在之前我们也提到过,然而在大数据处理的技术中,排序起到很重要的作用,可能不是直接使用,要不使用这用划分的思想,或者在小的方面使用到排序的方法,例如在在我们之前提到的Top k问题,用用到了堆排序中堆,在上一节介绍堆排序额时候,我们也给出了一个...原创 2018-11-08 17:14:31 · 431 阅读 · 0 评论 -
海量数据处理-字典树和倒排索引
海量数据处理-字典树和倒排索引海量数据处理我们已经提到过分而治之mapreduce,和排序相关的专题,今天我们来看一下之前也有简单介绍过的字典树和倒排索引。倒排索引倒排索引是一种索引方法,常用在搜索引擎中,这个数据结构是根据属性值来确定记录的位置。对于一批文档,我们的属性值就是关键字,对应值是包含该属性的文档的ID或者文化的位置。例如:T0 = {a,b,c}T1 = {a,...原创 2018-11-16 16:03:56 · 1558 阅读 · 1 评论 -
统计学习方法笔记-概述
统计学习方法笔记缘起统计学习方法是李航博士的经典只作,也是很多学习机器学习的同学入门必备的书籍。这本书结合理论和习题,可深可浅的讲述了机器学习算法的原理。之前也读过一遍这本书,现在之所以写《统计学习方法》笔记,主要是和两个小伙伴有一个学习计划,我们每两周进行一个分享会,然后我们的第一本书选择的就是李航博士的《统计学习方法》。这里主要是整理分享会中的内容,希望对大家有所帮助。统计学习方法概...原创 2018-12-12 19:56:56 · 238 阅读 · 0 评论 -
统计学习方法笔记-感知机
统计学习方法笔记-感知机感知机是一个二分类的监督模型,我们定义输入空间x∈Rnx \in R^nx∈Rn,每一个x都是用向量表示。输出空间y={+1,−1}y=\{+1,-1\}y={+1,−1}. 我们希望通过训练数据集合,学的权重参数w和偏置参数b,有:f(x)=sign(wx+b)f(x) = sign(wx+b)f(x)=sign(wx+b)sign函数是符号函数,表示如下:(1...原创 2018-12-15 17:13:09 · 280 阅读 · 0 评论 -
统计学习方法-朴素贝叶斯
统计学习方法-朴素贝叶斯法先提出以下问题:朴素贝叶斯法、贝叶斯公式、贝叶斯估计分别是什么?贝叶斯公式的物理意义什么?贝叶斯网络是什么?朴素贝叶斯法朴素贝叶斯法 = 贝叶斯定理 + 特征条件独立.输入X∈RnX \in R^nX∈Rn空间是n维向量集合,输出空间y={c1,c2,...,cK}y=\{c_1,c_2,...,c_K\}y={c1,c2,...,cK}. 所有...原创 2018-12-27 11:15:41 · 329 阅读 · 0 评论 -
统计学习方法笔记-k近邻
统计学习方法-k近邻k近邻方法是一种惰性学习算法,可以用于回归和分类,它的主要思想是投票机制,对于一个测试实例xjx_jxj, 我们在有标签的训练数据集上找到和最相近的k个数据,用他们的label进行投票,分类问题则进行表决投票,回归问题使用加权平均或者直接平均的方法。算法和模型由于这个模型很容易理解,我们直接给出kNN分类模型其算法伪代码:输入:训练数据T={(x1,y1),(...原创 2018-12-25 13:23:50 · 326 阅读 · 0 评论 -
统计学习方法笔记-决策树
统计学习方法笔记-决策树很多集成学习器,他们的基本模型都是决策树,我们经常提到的gbdt模型,它的基模型就是CRAT树.决策树是什么东西?就是我们平常所说的if-then条件,我们把它组合成树的结构. 决策树中有两种结点,叶子结点和非叶子结点. 其中非叶节点代表的条件,叶子结点表示的实例所属的类别.我们如何生成这个决策树呢,最主要的一点就是选择那个特征作为当前树的分割结点,这就叫做特征选择,...原创 2019-01-10 21:40:52 · 658 阅读 · 0 评论 -
海量数据处理-Topk引发的思考
海量数据处理–TopK引发的思考三问海量数据处理:什么是海量数据处理,为什么出现这种需求?如何进行海量数据处理,常用的方法和技术有什么?如今分布式框架已经很成熟了,为什么还用学习海量数据处理的技术?什么是海量数据处理,为什么出现这种需求?如今互联网产生的数据量已经达到PB级别,如何在数据量不断增大的情况下,依然保证快速的检索或者更新数据,是我们面临的问题。所谓海量数据处理,是指基...原创 2018-11-03 12:33:16 · 640 阅读 · 0 评论 -
AutoEncoder 算法与原理和实现
AutoEncoder是深度学习的另外一个重要内容,并且非常有意思,神经网络通过大量数据集,进行end-to-end的训练,不断提高其准确率,而AutoEncoder通过设计encode和decode过程使输入和输出越来越接近,是一种无监督学习过程。 AutoEncoderIntroduction AutoEncoder包括两个过程:encode和decode,输入图片通过encode进行...原创 2018-04-20 20:22:28 · 4513 阅读 · 0 评论 -
基本Kmeans算法介绍及其实现
1.基本Kmeans算法[1] [cpp] view plaincopy 选择K个点作为初始质心 repeat 将每个点指派到最近的质心,形成K个簇 重新计算每个簇的质心 until 簇不发生变化或达到最大迭代次数 时间复杂度:O(tKmn),其中,t为迭代次数,K为簇的数目,m为记录数,n为维数 空间复杂度:O((m+K)n),其中,K为簇的数目,m为记录数,n为维转载 2016-01-08 22:02:01 · 636 阅读 · 0 评论 -
Logistic Regression 简单原理和 Sklearn and Theano中使用
Logistic Regression 逻辑斯蒂回归,一般的二分类函数形式: (1-1)另: (1-2)得到如下函数: (1-3)在二次的Logistic中,有如下概率值: (1-4)有一点需要知道,什么是事件几率和事件对数几率,时间几率就是一个事件发生的概率和不发生的概率的比值,对数几率就是对上述的事件几率值取对数。 (1-5)最需要注意的一点:原创 2017-03-29 16:02:19 · 779 阅读 · 0 评论 -
Pyhton数据挖掘-电力窃漏电用户的自动识别
电力窃漏电用户的自动识别的笔记: 目标: 1、归纳漏电用户的关键特征,构建漏电用户的model 2、利用事实监控的数据,懂所有的用户进行实时诊断 注意的点: 1、某一些大用户不可能存在漏电行为,例如银行、学校和工商等。 2、漏电用户的窃电开始时间和结束时间是表征其漏电的关键节点,在这些节点上,用户的用电负荷和终端报警数据会有一定的变化。 样本数据抽取是务必包含一定范围的数据,并通原创 2017-04-21 22:04:35 · 8314 阅读 · 19 评论 -
机器学习——感知机(笔记+代码)
机器学习——感知机感知机模型定义: 1、输入空间,目的是根据数据求出一个f(x),使得输入空间映射的输出空间; 当= 0时是一个超平面,该平面讲空间中的数据分成两类,这就是感知机的二分模型。我们的目的是找到一个当使得具有最好(在训练集上最好,)的分类效果。其中,叫做权重向量(或者是法向量),叫做偏移值(或者是截距)。 图例:参数的学习策略: 数据集:,要求数据集线性可分。 目原创 2017-05-16 12:28:16 · 701 阅读 · 0 评论 -
Python数据挖掘-航空公司客户价值分析
航空公司客户价值分析 目标:企业针对不同价值的客户制定个性化的服务,将有限的资源集中于高价值客户。 1、借助航空公司的数据进行客户分类 2、比较不同类客户的价值并制定销策略识别客户价值的最广泛的模型是通过RFM模型来识别出高价值的客户: Recency: 最近消费时间间隔 Frequency: 消费频率 Monetary: 消费金额 问题原创 2017-04-25 23:25:42 · 6970 阅读 · 6 评论 -
线性分类器
线性分类器 主要内容: 线性分类器简介 线性得分函数(Linear score function) 解释线性分类器 损失函数 多分类支持向量机 Softmax分类器 SVM vs Softmax 总结 线性分类器(Linear Classification) 在上一节中,我们介绍了图像分类问原创 2017-07-01 20:25:43 · 2230 阅读 · 2 评论 -
图像分类
这是一篇介绍性的文章,旨在向人们介绍计算机视觉的外围应用:图片分类问题。现在我们介绍一种基于数据驱动的方法。内容如下:简述图像分类,数据驱动和管道K近邻分离器验证集合,交叉验证和超参数调优近邻算法的优点和缺点总结总结:kNN在实践中的应用扩展阅读图像分类 (Image Classification)动机(Motivation),在这个章节中,我们讲介绍图像分类问题,任务是给定一个输入图片,将其指派翻译 2017-06-26 20:30:55 · 10884 阅读 · 2 评论 -
机器学习框架xr-learn: decisionTree(决策树)
decisionTree(决策树)最经典的三种方法,分别是ID3,C4.5和CART.下面介绍三种算法.ID3算法ID3算法最早由Ross Qulinlan发明,用来基于数据产生一个决策树.并且是C4.5的前身,广泛用于机器学习和自然语言处理方向. ID3算法,其实道理很简单,对于给定的数据集合S和其所有的特征features,每次通过确定的方法(信息增益或者信息熵)选择一个最好的特征,将数据分原创 2017-12-15 16:27:24 · 375 阅读 · 0 评论 -
机器学习框架xr-learn:感知机(perceptron)
感知机(perceptron)我们一直都不知道这个模型是好还是坏,但是如果把它当做一个神经网络的一层,那就厉害了.首先从个人角度感性理解这个模型是什么? 感知机:有一组数据(X,Y),Y = {+1,-1},我们希望找到一个函数F(x),是得到所有的数据都能正确分类. 我们希望找到这样一个函数:F(x) = sign(WX+b). 使得所有的训练数据都能正确分类.找到一个loss(x)函数,最原创 2017-12-15 16:24:59 · 512 阅读 · 0 评论 -
推荐系统中SVD算法详解
推荐系统中SVD算法详解 SVD算法详解 下面开始介绍SVD算法,假设存在以下user和item的数据矩阵: &am转载 2018-02-27 09:48:20 · 10244 阅读 · 0 评论 -
简单好用的特征选择器
featselectorfeatselector是一个基于统计分析和模型选择的特征选择器.Github: https://github.com/xiaorancs/feature-select背景特征过多会导致如下后果:引起维数灾难,模型推广能力差特征过于稀疏,模型效果不好很多冗余特征和相关性高的特征,降低模型精度在机器学习任务中,有两大难题:特征提取和选择模型选择和优...原创 2019-03-04 10:55:57 · 484 阅读 · 0 评论