自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 问答 (1)
  • 收藏
  • 关注

原创 自己动手搭建一个简单的基于Hadoop的离线分析系统之三——hive

自己动手搭建一个简单的基于Hadoop的离线分析系统之三——hive在上一篇《自己动手搭建一个简单的基于Hadoop的离线分析系统之二——HDFS》文章中介绍了整个系统的数据存储,这一篇文章从hive入手,介绍整个离线分析系统的数据分析。一、hive与MySQL  二、sql脚本--切换数据库use ${hiveconf:database_name};--创建表并导入数据cre...

2018-12-25 20:37:37 709

原创 自己动手搭建一个简单的基于Hadoop的离线分析系统之二——HDFS

自己动手搭建一个简单的基于Hadoop的离线分析系统之二——HDFS在上一篇《自己动手搭建一个简单的基于Hadoop的离线分析系统之一——网络爬虫》文章中介绍了整个系统的数据来源,这一篇文章从HDFS入手,介绍整个离线分析系统的数据存储。一、脚本处理流程  爬取到的数据信息往往非常庞大,以至于单靠一台存储设备不能完整的保存下来,这时就可以使用分布式文件系统(HDFS)来解决这个问题,我们...

2018-12-24 20:12:06 430

原创 自己动手搭建一个简单的基于Hadoop的离线分析系统之一——网络爬虫

自己动手搭建一个基于Hadoop的离线分析系统

2018-12-23 14:39:20 1392 4

原创 使用自相似性的聚类方法——Chameleon

使用自相似性的聚类方法——Chameleon第三十六次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。本文作为基于图的聚类的第二部分,主要针对“共享最近邻相似度(Shared Nearest Neighbour)”以及使用该度量的“Jarvis-Patrick聚类”进行介绍。其他基于图的聚类算法的链接可以在这篇综述《基于图的聚类算法综述(基于图的聚类算...

2018-12-10 09:54:29 2421

原创 基于密度的新概念——SNN密度

基于密度的新概念——SNN密度第三十五次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。本文作为基于图的聚类的第二部分,主要针对“共享最近邻相似度(Shared Nearest Neighbour)”以及使用该度量的“Jarvis-Patrick聚类”进行介绍。其他基于图的聚类算法的链接可以在这篇综述《基于图的聚类算法综述(基于图的聚类算法开篇)》的结...

2018-12-10 09:13:16 2191 2

原创 共享最近邻相似度

共享最近邻相似度第三十四次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。本文作为基于图的聚类的第二部分,主要针对“共享最近邻相似度(Shared Nearest Neighbour)”以及使用该度量的“Jarvis-Patrick聚类”进行介绍。其他基于图的聚类算法的链接可以在这篇综述《基于图的聚类算法综述(基于图的聚类算法开篇)》的结尾找到。S...

2018-12-05 09:05:56 6829

原创 稀疏化邻近度图

稀疏化邻近度图第三十三次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。本文作为基于图的聚类的第一部分,主要针对“如何稀疏化邻近度图”以及“如何在稀疏化后的邻近度图上运行聚类算法”,本文还会针对数据结构与算法中的两种构建“最小生成树(Minimum Spanning Tree)”的算法(Prim和Kruskal)进行介绍。其他基于图的聚类算法的链接可以...

2018-12-03 20:39:36 1928

原创 基于图的聚类算法综述(基于图的聚类算法开篇)

基于图的聚类算法综述第三十二次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。这一篇文章作为基于图的聚类(Figure-based Clustering)算法的开篇,简要介绍了该类算法的相关内容,并为之后的算法详解做铺垫。如何稀疏化邻近度图  稀疏化邻近度图,即只保留对象与其最近邻之间的连接,采用这种处理方法有利于处理离群点和噪声,还可以基于稀疏...

2018-12-03 09:16:58 12295

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除