【网络挖掘:成就与未来方向】之网络结构挖掘

四、网络结构挖掘(Web Structure Mining)

1、定义

一个典型的网络图形结构是把网页作为节点,把链接两个相关网页的超链接作为边。

网络结构挖掘是从网络中发现结构信息的过程。

这种挖掘可以在文档级别(页内)也可以在超链接级别(页间)。

超链接级别的研究也叫做超链接分析(HyperlinkAnalysis)。

 

研究超链接结构的动机(Motivation):

超链接有两个主要目的——纯粹的导航和指向与页面拥有同一主题的权威页面。

可以用来检索网络中有用的信息。

 

2、网络结构术语(Web Structure Terminology)

网络图(Web-graph):表示网络的有向图。

节点(Node):每个网页都是网络图的一个节点。

链接(Link):网络上的每个超链接都是网络图中的一个有向边。

入度(In-degree):节点p的入度是指向p的不同链接的数量。

出度(Out-degree):节点p的出度是p指向其他节点的不同超链接的数目。

有向路径(Directed Path):从节点p到q的可跟踪的一个链接序列。

最短路径(Shortest Path):在节点p到q的所有路径中拥有最短长度的路径,如链接的数量最少。

直径(Diameter):网络图中任意两个节点p和q之间的所有最短路径中的最大值。

 

3、感兴趣的网络结构(Interesting Web Structures[ERC+2000])

 

蝴蝶结网络结构(The Bow-TieModel of the Web [BKM+2000])

 

4、超链接分析技术(Hyperlink Analysis Techniques[DSKT2002])

1)知识模型(Knowledge Models):这种低层的表示是进行应用程序特定任务的基础。

2)分析范围和性质(Analysis Scope and Properties):分析范围表明任务是与一个节点还是一组节点还是整个图有关;性质是一个节点或一组节点或整个网络的特征。

3)措施与算法(Measures and Algorithms):措施是性质的标准,如质量、节点间相关性或距离;算法是这些措施的有效计算。

这三个方面构成了建立基于超链接分析的应用程序(Application)的基础。

 

5、主要概念

1)Google的PageRank[BP1998]

核心思想:一个网页的排名依赖于指向它的网页的排名。

 

算法:

 

2)Hubs andAuthorities [K1998]

核心思想:一个好的hub页面指向很多好的Authority页面,一个好的Authority页面被很多好的hub页面指向。

 

算法:

 

3)网络社区(WebCommunities [FLG2000])

定义:网络社区可以被描述为一个网页集合,集合内部的每一个网页在社区内比社区外有更多的超链接(不管是链入的还是链出的)。

方法:最大流模型(Maximal-flowModel),图子结构识别(GraphSubstructure Identification)。

最大流最小分割算法(Max Flow- MinCut Algorithm):

 

4)信息线索(InformationScent [CPCP2001])

核心思想:一个用户在“觅食(foraging)”信息的时候会“闻到(smell)”那种信息,跟踪链接的可能性取决于那个链接的“气味(scent)”的强度。

 

6、结论(Conclusions)

网络结构是抽取信息的有用来源。这些信息包括:

1)网页质量(Quality of Web Page)——页面关于某个主题的权威性,网页的排名;

2)感兴趣的网络结构(Interesting Web Structures)——像共引用(Co-citation)、社会选择(SocialChoice)、完全二分图(Completebipartite graphs)等图模式;

3)网页分类(Web Page Classification)——根据不同主题对网页进行分类;

4)爬行哪个网页(Which pages to crawl)——决定把哪些网页添加到网页集合中;

5)找到相关页面(Finding Related Pages)——给定一个页面,找到所有相关页面;

6)检测重复页面(Detection of duplicated pages)——检测同镜像网站以消除重复。

 

翻译有不当之处,敬请指正!原文地址:http://www.ieee.org.ar/downloads/Srivastava-tut-pres.pdf

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
网络招聘信息的分析与挖掘是指通过对大量网络招聘信息进行收集、整理和分析,从中提取出有用的信息,以便为用人单位和求职者提供有针对性的招聘或求职建议。 首先,对网络招聘信息进行分析可以帮助用人单位快速找到合适的人才。通过分析需求岗位的关键词、技能要求和学历背景等信息,可以了解市场上对特定岗位的需求程度和趋势,并根据这些信息调整招聘策略,提高招聘效率和成功率。同时,分析招聘信息还可以帮助用人单位了解竞争对手的招聘策略,以及其他类似职位的薪资待遇,从而制定更合理的薪酬水平,增加用人单位的竞争力。 其次,网络招聘信息的分析还能为求职者提供就业指导。通过分析招聘信息中的职位需求和行业趋势,求职者可以了解当前市场对各个岗位的需求情况,有针对性地提升自己技能和知识水平,提高自身的竞争力。此外,通过对招聘信息中的薪资水平的分析,求职者可以了解到不同岗位和不同行业的薪酬差异,为自己的薪资谈判提供参考指标。 网络招聘信息的挖掘是指通过大数据分析和数据挖掘技术,对海量的招聘信息进行挖掘,以发现隐藏的价值信息。通过建立招聘信息的模型,可以分析出招聘信息中的关键词、要求的职位技能、薪资水平等多个维度的信息,帮助用人单位精确地找到所需要的人才。同时,挖掘招聘信息还可以识别出招聘信息中的异常数据,帮助用人单位排查可能存在的虚假招聘信息和招聘欺诈行为。 总之,通过对网络招聘信息的分析与挖掘,可以为用人单位和求职者提供有针对性的信息和建议,提高招聘的效率和求职的成功率。同时,分析和挖掘招聘信息还能为市场调研、薪酬制定等提供支持,对于促进就业市场的平稳运行和优化人才配置具有重要意义。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值