作业第三步----Top10的最重要页面（续）

最新推荐文章于 2018-09-23 21:59:00 发布

wbia2010lkl

最新推荐文章于 2018-09-23 21:59:00 发布

阅读量852

点赞数

分类专栏： Heritrix 文章标签：作业 vector url javascript 算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wbia2010lkl/article/details/5970486

版权

Heritrix 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

由于此前在Heritrix中自定义的Extractor保存了如下几个文件：

1.入度；格式为url+“/n”+入度数

例如：http://hmwu.ccer.edu.cn/

1

2.出度，格式同上

3.url及其链出的url

例如：http://www.ccer.pku.edu.cn/cn/Images/arrow.gif

+（表示开始）

javascript:history.back(1)

http://go.microsoft.com/fwlink/?linkid=8180

@（表示结束）

因此当改变思路需要使用稀疏矩阵保存和计算结果是就需要对以上几个文件进行预处理。我们的思路是：首先，隔行读取2中的文件，建立一个Map，key为url，value为一个顺序的正数（以此将url与数字形成一对一映射方便后续的处理）。

然后，根据文件3的格式对应上一部中取得的Map建立连接关系，并按照稀疏矩阵的格式保存在文件中。

接着，扫描该文件，利用vector保存每组数值，然后循环处理每一行（其实为上一步中所存矩阵的列），根据pageRank算法，如果无出度则该行为1/N，否则扫描vector看看该位置是否存在连接关系，存在则置为1/count(N)，否则置为0。依次进行迭代，最终算出每个URL对应的权值，具体结果如下图

然而在排列这组值的时候，我们发现有一组页面的位置非常靠前，大概在13位之后一直是该文件夹下的页面，集中于http://www.ccer.pku.edu.cn/stat/之下，分别为FAddress.asp，Default.asp，FIptwo.asp等网页，我们分析之后，觉得问题可能还是出现在抓取的过程中，为了加快速度，而减少了页面响应的时间，因此有些页面由于响应时间略长而被丢弃，最终影响了结果。对于这个问题我们会找机会重新进行抓取已验证这个想法的真实性。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
作业第三步----Top10的最重要页面（续）

<br />由于此前在Heritrix中自定义的Extractor保存了如下几个文件：<br /> <br />1.入度；格式为url+“/n”+入度数<br /> <br />例如：http://hmwu.ccer.edu.cn/<br /> <br /> 1<br /> <br />2.出度，格式同上<br /> <br />3.url及其链出的url<br /> <br />例如：http://www.ccer.pku.edu.cn/cn/Images/arrow.gif<br />
复制链接

扫一扫

专栏目录

wbia2010lkl CSDN认证博客专家 CSDN认证企业博客

码龄14年

16: 原创

118万+: 周排名

176万+: 总排名

3万+: 访问

: 等级

645: 积分

15: 粉丝

1: 获赞

7: 评论

2: 收藏

私信

关注

热门文章

分类专栏

最新评论

IKAnalyzer的分词效果
freelooppowter: 我想请问一下，你的文件在项目中的位置是怎样的呀？能截图或者你方便的形式告诉我吗？谢谢
作业第三步，统计URL的出度和入读
liudi_nba: 能不能把源码给发一下啊，谢谢喽
Eclipse中导入Heritrix，报错找不到类 sun.net.www.protocol.file.FileURLConnection
hihi321: 原因：import sun.net.www.protocol.file.FileURLConnection 其中sun包是受保护的包，默认只有sun公司的软件才能使用。Eclipse会报错，把对保护使用waring就可以了。 Windows -> Preferences -> Java -> Compiler -> Errors/Warnings-> Deprecated and trstricted API -> Forbidden reference (access rules): -> change to warning
作业第三步，统计URL的出度和入读
aibati2008: 请问下出度保存的时候是接受的爬虫自己的CrawlURI，可以保存。但是当入度保存的时候，只能接收传来的url，但是用java.net连接会报错。请问你们是如何解决的？
project3---我们的成果展示
wbia2010lkl: 回复 kaiser1943：[e04]

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。