作业第三步----Top10的最重要页面

最新推荐文章于 2021-03-22 07:27:37 发布

wbia2010lkl

最新推荐文章于 2021-03-22 07:27:37 发布

阅读量909

点赞数

分类专栏： Heritrix 文章标签：作业 matlab 算法语言 url c

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wbia2010lkl/article/details/5963270

版权

Heritrix 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

到了这一步，这次的作业基本计算完成了。通过得到url的出入度信息，排出Top10的最重要页面。

在抓取过程中，我们创建了自己Extractor,然后又在BdbFrontier中修改了代码实现了出入度的文件保存，于是接下来只需对文件进行分析利用pageRank算法即可。

思路一：

这是最常规的方法，也是第一时间可以相处的方法，就是利用出度关系，直接构造一个邻接矩阵，读取矩阵之后进行

n G= 0.85*L T +0.15/11(1 N )

n P 0 =(1/11,1/11,….) T

n P 1 =GP 0

迭代计算，直接动手实现。课堂上老师提到了Matlab，所以我们决定小试一下，Matlab由于其数据解围矩阵形式保存，所以处理矩阵会有很大优势。

所以代码中只是简单的调用Matlab的一些现成的函数即可轻松完成。代码极其简单

matrix

x=0.15

[line,row]=size(M)

P=ones(line,1)/line

i=0

E=ones(line,line)

while i<10

G=(1-x)*M.'+x*E/line

P=G*P

P=P/sum(P)

i=i+1

end

这里建设矩阵存在matrix.m文件中，直接循环计算。

貌似到这里已经很完美的解决了作业，问题出现了：ccer有近20000页面，存成矩阵的话就会有20000x20000个元素，简单计算一下生成的纯文本文件将会多达数G，计算的效率如何保证？

思路二：

由于一中存在的严重问题，自然而然的想到稀疏矩阵的表示，然而在Heritrix中，我们只保存了每个页面及其的出度，以及页面的列表，因此需要利用这两个文件构造出系数矩阵的表达形式。

具体操作可以有很多选择，为了提高效率我们选择了C++语言，具体实现此处不再赘述。

得到稀疏矩阵之后，就可以逐行对其进行操作，大大提高了效率。

结果数据仍在处理之中，稍后奉上。

P.S.首先感谢国家，然后感谢戴志伟童鞋，正是他对我们的数据量产生了质疑使得我们如梦初醒，蓦然回首，发现是在过于信任数学软件而忽略了数据本身的庞大，特此表示感谢。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
作业第三步----Top10的最重要页面

到了这一步，这次的作业基本计算完成了。通过得到url的出入度信息，排出Top10的最重要页面。在抓取过程中，我们创建了自己Extractor,然后又在BdbFrontier中修改了代码实现了出入度的文件保存，于是接下来只需对文件进行分析利用pageRank算法即可。思路一：这是最常规的方法，也是第一时间可以相处的方法，就是利用出度关系，直接构造一个邻接矩阵，读取矩阵之后进行 nG= 0.85*LT+0.15/11(1N)nP0=(1/11,1/11,….)Tn
复制链接

扫一扫

专栏目录

wbia2010lkl CSDN认证博客专家 CSDN认证企业博客

码龄14年

16: 原创

118万+: 周排名

176万+: 总排名

3万+: 访问

: 等级

645: 积分

15: 粉丝

1: 获赞

7: 评论

2: 收藏

私信

关注

热门文章

分类专栏

最新评论

IKAnalyzer的分词效果
freelooppowter: 我想请问一下，你的文件在项目中的位置是怎样的呀？能截图或者你方便的形式告诉我吗？谢谢
作业第三步，统计URL的出度和入读
liudi_nba: 能不能把源码给发一下啊，谢谢喽
Eclipse中导入Heritrix，报错找不到类 sun.net.www.protocol.file.FileURLConnection
hihi321: 原因：import sun.net.www.protocol.file.FileURLConnection 其中sun包是受保护的包，默认只有sun公司的软件才能使用。Eclipse会报错，把对保护使用waring就可以了。 Windows -> Preferences -> Java -> Compiler -> Errors/Warnings-> Deprecated and trstricted API -> Forbidden reference (access rules): -> change to warning
作业第三步，统计URL的出度和入读
aibati2008: 请问下出度保存的时候是接受的爬虫自己的CrawlURI，可以保存。但是当入度保存的时候，只能接收传来的url，但是用java.net连接会报错。请问你们是如何解决的？
project3---我们的成果展示
wbia2010lkl: 回复 kaiser1943：[e04]

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。