- 博客(8)
- 问答 (1)
- 收藏
- 关注
原创 自己动手搭建一个简单的基于Hadoop的离线分析系统之三——hive
自己动手搭建一个简单的基于Hadoop的离线分析系统之三——hive在上一篇《自己动手搭建一个简单的基于Hadoop的离线分析系统之二——HDFS》文章中介绍了整个系统的数据存储,这一篇文章从hive入手,介绍整个离线分析系统的数据分析。一、hive与MySQL 二、sql脚本--切换数据库use ${hiveconf:database_name};--创建表并导入数据cre...
2018-12-25 20:37:37 709
原创 自己动手搭建一个简单的基于Hadoop的离线分析系统之二——HDFS
自己动手搭建一个简单的基于Hadoop的离线分析系统之二——HDFS在上一篇《自己动手搭建一个简单的基于Hadoop的离线分析系统之一——网络爬虫》文章中介绍了整个系统的数据来源,这一篇文章从HDFS入手,介绍整个离线分析系统的数据存储。一、脚本处理流程 爬取到的数据信息往往非常庞大,以至于单靠一台存储设备不能完整的保存下来,这时就可以使用分布式文件系统(HDFS)来解决这个问题,我们...
2018-12-24 20:12:06 430
原创 使用自相似性的聚类方法——Chameleon
使用自相似性的聚类方法——Chameleon第三十六次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。本文作为基于图的聚类的第二部分,主要针对“共享最近邻相似度(Shared Nearest Neighbour)”以及使用该度量的“Jarvis-Patrick聚类”进行介绍。其他基于图的聚类算法的链接可以在这篇综述《基于图的聚类算法综述(基于图的聚类算...
2018-12-10 09:54:29 2421
原创 基于密度的新概念——SNN密度
基于密度的新概念——SNN密度第三十五次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。本文作为基于图的聚类的第二部分,主要针对“共享最近邻相似度(Shared Nearest Neighbour)”以及使用该度量的“Jarvis-Patrick聚类”进行介绍。其他基于图的聚类算法的链接可以在这篇综述《基于图的聚类算法综述(基于图的聚类算法开篇)》的结...
2018-12-10 09:13:16 2191 2
原创 共享最近邻相似度
共享最近邻相似度第三十四次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。本文作为基于图的聚类的第二部分,主要针对“共享最近邻相似度(Shared Nearest Neighbour)”以及使用该度量的“Jarvis-Patrick聚类”进行介绍。其他基于图的聚类算法的链接可以在这篇综述《基于图的聚类算法综述(基于图的聚类算法开篇)》的结尾找到。S...
2018-12-05 09:05:56 6829
原创 稀疏化邻近度图
稀疏化邻近度图第三十三次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。本文作为基于图的聚类的第一部分,主要针对“如何稀疏化邻近度图”以及“如何在稀疏化后的邻近度图上运行聚类算法”,本文还会针对数据结构与算法中的两种构建“最小生成树(Minimum Spanning Tree)”的算法(Prim和Kruskal)进行介绍。其他基于图的聚类算法的链接可以...
2018-12-03 20:39:36 1928
原创 基于图的聚类算法综述(基于图的聚类算法开篇)
基于图的聚类算法综述第三十二次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。这一篇文章作为基于图的聚类(Figure-based Clustering)算法的开篇,简要介绍了该类算法的相关内容,并为之后的算法详解做铺垫。如何稀疏化邻近度图 稀疏化邻近度图,即只保留对象与其最近邻之间的连接,采用这种处理方法有利于处理离群点和噪声,还可以基于稀疏...
2018-12-03 09:16:58 12295
空空如也
Maven help命令报错build failure
2018-11-12
TA创建的收藏夹 TA关注的收藏夹
TA关注的人