用递归的方式得到一个站点的全部链接

最新推荐文章于 2023-05-26 10:23:27 发布

lploveme

最新推荐文章于 2023-05-26 10:23:27 发布

阅读量590

点赞数

文章标签： string server windows url 2010

本文链接：https://blog.csdn.net/lploveme/article/details/6095456

版权

我的小蛛蛛还在慢慢的爬行着今天遇到的问题是什么呢？

今天的问题是想把这个站点的全部链接读出的string 写到文件中去用什么方式呢？当然是递归！这个貌似别无选择。

对代码的解释：

第一我们知道网站中的一些东西是不用动的也就像文章的详情页面一旦写好了如果没有什么大的改动一般来说是不用懂来动去的

所以我们有了一个参数 List<string> NotBuidingFilekey 这个参数就是为了解决这个问题的。

判断这个文件是不是存在的。如果不存在写下来如果文件是存在的 return

第二点：我写蛛蛛是写成一个服务的用的是windows server 写的所以在这里fileName 是不可以用上文中的server对象中的方法的怎么办呢？只可以用相同的规则来代替server对象中的方法。代码就是下文中的第二个方法。

唉又过了12点了明天在继续我的code！

/// <summary> /// 循环写入文件 /// 代云超 /// </summary> /// <param name="lists">这是第一层的list</param> /// <param name="NotBuidIngFilekey">如果有这个关键字的话就不用生成文件</param> /// <param name="urlkey">url关键词</param> public static void SetFiles(List<string> lists,string urlkey,string filepath,int OutTime,List<string> NotBuidIngFilekey) { //查看这个文件是不是存在的 for (int i = 0; i < lists.Count; i++) { string fileName = GetTureFileName(filepath, lists[i]); bool IsHasValueKey = false; for (int j = 0; j < NotBuidIngFilekey.Count; j++) { lists[i].Contains(NotBuidIngFilekey[j]);//如果有这些关键字的话 IsHasValueKey = true; break; } if (IsHasValueKey)//如果有这个关键字 { if (RwFile.IsHasFile(fileName))//如果文件真的是存在的 { return;//说明这个文件就不用在一次的生成了 } } if (RwFile.IsHasFile(fileName, OutTime)) { //文件是存在的 return; } else//如果文件是不存在的没有这个文件 { //读取这个文件 string source = GetPageTxt.GetPage(); //得到这个页面的全部链接 List<string> getLinks = GetPageTxt.GetLinks(source); List<string> getTrueLink = GetPageTxt.GetTrueUrl(getLinks, lists[i], urlKey); RwFile.WriteFile(fileName, source);//将文件写好 //调用递归的方法 ForSetFiles.SetFiles(getLinks, urlkey, filepath, OutTime, NotBuidIngFilekey); } } } /// <summary> /// 得到文件名称的完整方法 /// 代云超2010 12 23 /// </summary> /// <param name="filePath">文件前路径</param> /// <returns></returns> public static string GetTureFileName(string filePath, string urlName) { //将url转义没有server对象用相同的规则代替server中的Encode方法 string returnurl = urlName.Replace(":", "%3a").Replace("/", "%2f"); return filePath + returnurl; }

lploveme

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
用递归的方式得到一个站点的全部链接

 我的小蛛蛛还在慢慢的爬行着今天遇到的问题是什么呢？ 今天的问题是想把这个站点的全部链接读出的string 写到文件中去用什么方式呢？当然是递归！这个貌似别无选择。 对代码的解释： 第一我们知道网站中的一些东西是不用动的也就像文章的详情页面一旦写好了如果没有什么大的改动一般来说是不用懂来动去的 所以我们有了一个参数 List<string> NotBuidingFilekey 这个参数就是为了解决这个问题的。 判断这个文件是不是
复制链接

扫一扫