MapReduce中Shuffle机制的学习案例——房屋租赁信息 MapReduce中Shuffle机制的学习案例——房屋租赁信息由于在《自己动手搭建一个简单的基于Hadoop的离线分析系统》系列中直接将清洗后的数据导入Hive中进行分析,没有使用到Hadoop中的MapReduce框架,因此这篇文章将通过该框架对输入数据进行清洗,并对清洗后的数据经行分析,数据源仍来源于同一网站的网络爬虫。Hadoop版本:2.6.5Shuffle机制...
【问题记录】Eclipse打包Maven项目报错:PluginResolutionException JDK版本:1.7.0_80Maven版本:3.6.0Eclipse版本:Eclipse Oxygen问题描述一个“奇怪”的问题,在编写项目源码时,通过Maven成功的引入了第三方依赖,但是打包时报PluginResolutionException,导致打包失败,下面来分析一下错误日志,首先忽略打包过程中关于GBK编码的警告,如果由于编码导致MojoFailureException从而...
【问题记录】Eclipse打包Maven项目报错:MojoFailureException JDK版本:1.7.0_80Maven版本:3.6.0Eclipse版本:Eclipse Oxygen问题描述[使用Maven install命令打包](https://blog.csdn.net/qq_40793975/article/details/88070421)时,出现如下编码错误:[INFO] --- maven-compiler-plugin:3.1:compile (...
Eclipse中带有第三方依赖的Maven项目打包方式 Eclipse中带有第三方依赖的Maven项目打包方式最近正在学习流式计算系统,测试阶段在跑本地模式时需要将Flume、Kafka以、Storm以及Redis整合到一个Java项目中,于是乎在Eclipse中整了个Maven项目,加入了各种依赖包,但是因为之前在做分布式离线计算系统都是把依赖包直接整合成一个自定义的外部依赖库(User Library),然后直接用编辑器自带的打包指令直接打包,...
Proximal Support Vector Machine Classifiers(2001) Proximal Support Vector Machine Classifiers第四十六次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。在《》一文中曾对支持向量机(SVM)以及支持向量回归(SVR)进行了详细的介绍,在给出二次规划问题后,需要使用SMO算法对目标进行优化,由于SMO算法运行过程中需要对原数据进行循环扫描,来查找满足条件的样本点,...
最小二乘支持向量机(LSSVM)详解 最小二乘支持向量机(LSSVM)详解第四十六次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。在《》一文中曾对支持向量机(SVM)以及支持向量回归(SVR)进行了详细的介绍,在给出二次规划问题后,需要使用SMO算法对目标进行优化,由于SMO算法运行过程中需要对原数据进行循环扫描,来查找满足条件的样本点,因此该算法的时间复杂度是非常高的,本文介绍一种解决...
Dictionary Learning详解(附带K-SVD算法) Dictionary Learning详解第四十五次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。本文主要对字典学习(Dictionary Learning)进行简要介绍,并对其中较为典型的K-SVD算法进行讲解。预备知识:【1】L0L_{0}L0范数 ∣∣x∣∣0=||{\bf{x}}||_{0}=∣∣x∣∣0=向量x\bf{x}x中...
Manifold Learning详解 Manifold Learning详解第四十四次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。本文承接上一篇《Low-dimension Embedding详解(附带MDS算法)》,继续介绍某些降维手段。Manifold Learning(流行学习) 在《Low-dimension Embedding》这篇文章中,我们介绍了一种称为MDS的降...
Metric Learning详解(附带NCA算法) Metric Learning详解第四十三次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。 无论在分类还是回归任务中,降维的目的有时是为了选择一个合适的距离度量,如果每个空间都对应了一种距离度量方式,那么求得最适合原始样本空间的低维嵌入可以看做是求得一种最恰当的距离度量方式,这就是“度量学习”(Metric Learning)的目的。 为了...
Low-dimension Embedding详解(附带MDS算法) Low-dimension Embedding详解第四十二次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。机器学习任务中的“维数灾难”(Curse of Dimensionality)会导致高维样本空间中的样本稀疏与距离计算困难等问题,为了解决该问题,本文介绍一种被称为“多维缩放”(Multiple Dimensional Scaling,简称MDS...
K-means clustering using random matrix sparsification(ICML2018) K-means clustering using random matrix sparsification第四十一次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。由于K-Means算法本身的时间复杂度很高,特别是在处理大数据集时,因此这篇文章主要介绍一种使用随机矩阵稀疏化(random matrix sparsification)方法的近似K-Mea...
Random Projections for k-means Clustering(ICML 2010) Random Projections for k-means Clustering第四十次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。由于K-Means算法本身的时间复杂度很高,特别是在处理大数据集时,因此这篇文章主要介绍一种使用随机映射(Random Projection)降维方法的近似K-Means算法,其他有关于原型聚类算法的讨论可以移步到该...
A Simple Linear Time (1 + ε)-Approximation Algorithm for k-Means Clustering in Any Dimensions(2004) A Simple Linear Time (1 + ε)-Approximation Algorithm for k-Means Clustering第三十九次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。由于K-Means算法本身的时间复杂度很高,特别是在处理大数据集时,因此这篇文章主要介绍一种具有线性时间复杂度的近似K-Means算法,其他有关于...
Kernelized Principal Component Analysis详解 Kernelized Principal Component Analysis详解第三十八次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。《主成分分析(PCA)详解(附带详细公式推导)》一文中曾对一种重要的降维手段——主成分分析(PCA)进行了讲解,这篇文章则主要对PCA的一种变体——核主成分分析(KPCA)进行讲解。主成分分析的问题分析 主...
基于图切分的K-Means算法——Spectral Clustering 基于图切分的K-Means算法——Spectral Clustering第三十七次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。这一篇对聚类中的一个重要算法——Spectral Clustering(谱聚类)进行讲解,算法原理可以参照原论文(链接附在文章下方)或网上的相关原理详解,本文旨在以代码和实验现象解释算法中的某系细节,不做过多纯原理的赘述。...
自己动手搭建一个简单的基于Hadoop的离线分析系统之三——hive 自己动手搭建一个简单的基于Hadoop的离线分析系统之三——hive在上一篇《自己动手搭建一个简单的基于Hadoop的离线分析系统之二——HDFS》文章中介绍了整个系统的数据存储,这一篇文章从hive入手,介绍整个离线分析系统的数据分析。一、hive与MySQL 二、sql脚本--切换数据库use ${hiveconf:database_name};--创建表并导入数据cre...
自己动手搭建一个简单的基于Hadoop的离线分析系统之二——HDFS 自己动手搭建一个简单的基于Hadoop的离线分析系统之二——HDFS在上一篇《自己动手搭建一个简单的基于Hadoop的离线分析系统之一——网络爬虫》文章中介绍了整个系统的数据来源,这一篇文章从HDFS入手,介绍整个离线分析系统的数据存储。一、脚本处理流程 爬取到的数据信息往往非常庞大,以至于单靠一台存储设备不能完整的保存下来,这时就可以使用分布式文件系统(HDFS)来解决这个问题,我们...
使用自相似性的聚类方法——Chameleon 使用自相似性的聚类方法——Chameleon第三十六次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。本文作为基于图的聚类的第二部分,主要针对“共享最近邻相似度(Shared Nearest Neighbour)”以及使用该度量的“Jarvis-Patrick聚类”进行介绍。其他基于图的聚类算法的链接可以在这篇综述《基于图的聚类算法综述(基于图的聚类算...
基于密度的新概念——SNN密度 基于密度的新概念——SNN密度第三十五次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。本文作为基于图的聚类的第二部分,主要针对“共享最近邻相似度(Shared Nearest Neighbour)”以及使用该度量的“Jarvis-Patrick聚类”进行介绍。其他基于图的聚类算法的链接可以在这篇综述《基于图的聚类算法综述(基于图的聚类算法开篇)》的结...