简易网络爬虫程序的开发(5)(c#版)

最新推荐文章于 2023-01-26 08:00:07 发布

heroyuchao

最新推荐文章于 2023-01-26 08:00:07 发布

阅读量2.1k

点赞数

分类专栏： C#篇文章标签：网络爬虫 c# url sql server 数据库 insert

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/heroyuchao/article/details/2462149

版权

C#篇专栏收录该内容

10 篇文章 0 订阅

订阅专栏

现在我们就开始利用Spilder程序集来构建一个简单的网络蜘蛛程序

数据库部分(本示例用的是SQL Server2005)

创建数据库SpiderDB

新增表:temp

这个表是用来保存UrlStack中的URL值,当服务启动时UrlStack从这张表中装载URL,当服务退出时UrlStack中的Url将保存在这张表中.

新增表SpiderTable

这张表用来将获取到的网页内容保存,在示例程序中我只从网页的HTML获取Title信息,并记录抓取时间,和被抓取次数

新增一个储存过程,用来添加抓取信息到SpiderTable中代码如下:

CREATE Procedure [dbo].[AddWeb]
@url nvarchar(500),
@title nvarchar(500)
as
if not exists(select Url from SpiderTable where Url=@url)
insert into SpiderTable(Url,Title) values(@url,@title)
else
update SpiderTable set FetchCount=FetchCount+1,Title=@title
where Url=@url

当URL已存在在表中则更新FetchCount的值

数据库部分完

未完,待续……

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
简易网络爬虫程序的开发(5)(c#版)

现在我们就开始利用Spilder程序集来构建一个简单的网络蜘蛛程序数据库部分(本示例用的是SQL Server2005)创建数据库SpiderDB新增表:temp这个表是用来保存UrlStack中的URL值,当服务启动时UrlStack从这张表中装载URL,当服务退出时UrlStack中的Url将保存在这张表中.新增表SpiderTable这张表用来将获取到的网
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。