DM-数据挖掘小白-研究生入门自述

本文是数据挖掘方向研究生的入门学习笔记,重点探讨了Graph Sketching的基本概念,并详细介绍了论文中提出的gMatrix方法,这是一种用于图流压缩的新结构,能够支持多种查询操作,包括频率查询和可达性查询。通过对哈希函数的应用,gMatrix实现了高效的数据存储和检索。
摘要由CSDN通过智能技术生成

数据挖掘小白-研究生入门学习

Graph Sketching(一)

作为一个数据挖掘方向的准研究生,最近在导师的指导下进行研究生方向的初步探索。首先的任务是阅读***graph sketching*** 方向的论文来进行学习。为了检验和记录自己对论文的理解,会将系列论文的解读分享到这里。希望能与相同方向的研究生初学者共勉。

Query-Friendly Compression_Graph_Streams

1.**研究背景和目的**
      该论文是基于由大量的通讯、网络社交、购物等产生大量的即时数据而形成的图流,为了对这些即时数据进行某些需求(场景)的查询。设计了一种图流的压缩结构,能够对现有的结构进行改进,提供更友好的信息查询,也就是提供更多的查询功能[^主要增加了一些结构化的查询,即涉及到底层的点(假设一条信息流为一条边)集合的查询]。
2.**现存图流压缩--COUNT-MIN**
      之前很多的图压缩都支持对__high-frequency__的node或者edge的查询,但是不支持进行结构化的查询。比较经典的是**COUNT-MIN**。这个方法的主要思路是,构造一个w*h大小二维数组,利用w[^ w由特定公式算出,此处略,见原文]个两两相互独立的哈希函数g~k~ 。每个哈希函数对应一个一维的数组空间。
      ![在这里插入图片描述](https://img-blog.csdnimg.cn/20191018200247791.PNG?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQyNDY
  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值