C#爬取

17.8.16学习日志

C#爬取网页信息传递到HTML中

今天我的任务是处理后台页面的SEO信息和安全监测信息,刚开始我查阅资料了解什么是SEO和安全监测,了解到了站长工具这个网站可以查阅SEO和安全监测,但是————这并不是我需要的。。

我需要的是类似接口这样的工具,我传递过去网址以及其他参数,接口返还给我百度及其它搜索引擎收录的网站数目和安全检测结果,但是经过我的调研————首先这种接口基本收费,而且达不到我的需求,在查阅资料之后,我的解决方法是爬取网站信息。

首先打开需要爬取的网站,比如百度,然后在搜索框中加入需要查询的关键字,如我需要的网站收录数目:”site:www.steelhome.cn”,那么点击搜索地址栏出现的就是https://www.baidu.com/s?wd=site%3Awww.steelhome.cn&ie=UTF-8

接下来就是我们的代码时间

    static void Main(string[] args)
    {
    WebClient MyWebClient = new WebClient();
    MyWebClient.Credentials = CredentialCache.DefaultCredentials;//获取或设置用于向Internet资源的请求进行身份验证的网络凭据
    string x = "https://www.baidu.com//s?wd=site%3Awww.steelhome.cn&ie=UTF-8";
    Byte[] pageData = MyWebClient.DownloadData(x); //从指定网站下载数据
    string pageHtml = Encoding.UTF8.GetString(pageData);  //如果获取网站页面采用的是GB2312,则使用default            
    //Console.WriteLine(pageHtml);//在控制台输入获取的内容
    //Console.ReadKey();
    //StreamWriter sw = new StreamWriter("C:\\Users\\Administrator\\Desktop\\out.txt");
    //sw.Write(pageHtml);
    //sw.Close();
    string start = "备案方:上海钢之家电子商务股份有限公司";
    string end = "到站长平台分析收录量";
    var startIndex = pageHtml.IndexOf(start);
    var endIndex = pageHtml.IndexOf(end);
    string temp = pageHtml.Substring(startIndex + start.Length + 174, endIndex - startIndex - 440);
    Console.WriteLine(temp);//在控制台输入获取的内容
    Console.ReadKey();
    }

最好加上异常处理防止网页出现错误,这里就不加了。

在正式程序中,把main方法换成静态public方法,并返回值,并在模板页文件中的模板选择方法,选择你需要传递到的HTML页面,在HTML页面直接调用就可以了,下面是模板选择方法和HTML中的参数调用

if (templettype == "index")
   {
        t.Context.TempData["baiduseo"] = SEO.baiduSeoList();
        t.Context.TempData["sougouseo"] = SEO.sougouSeoList();
        t.Context.TempData["tszseo"] = SEO.threesixzeroSeoList();
        t.Context.TempData["problems"] = SEO.problemList();
    }

<div class="custom seo">
<h3>SE0信息</h3>
<article>
    百度收录: <span>$baiduseo</span><br>
    搜狗收录: <span>$sougouseo</span><br>
    360收录:  <span>$tszseo</span><br>
</article>
</div>

这就是我的处理方式,日志记录一下。
tupian

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值