C#实战 - 使用 C# 编写简单的网页爬虫

逍遥Sean

于 2024-07-31 15:56:04 发布

阅读量912

点赞数 4

分类专栏： C#实战案例（完整源代码）网络编程文章标签： c# 爬虫开发语言

本文链接：https://blog.csdn.net/Ureliable/article/details/140825175

版权

网络编程同时被 2 个专栏收录

12 篇文章 0 订阅

订阅专栏

C#实战案例（完整源代码）

6 篇文章 0 订阅

订阅专栏

作者：逍遥Sean
简介：一个主修Java的Web网站\游戏服务器后端开发者
主页：https://blog.csdn.net/Ureliable
觉得博主文章不错的话，可以三连支持一下~ 如有疑问和建议，请私信或评论留言！

前言
在本篇博文中，我们将介绍如何使用 C# 编写一个简单的网页爬虫，来获取指定网页的内容。我们将使用 .NET Core 环境，并依赖于 HtmlAgilityPack 库来解析 HTML。让我们逐步实现这个爬虫的过程。

使用 C# 编写简单的网页爬虫

准备工作

安装 HtmlAgilityPack 库

HtmlAgilityPack 是一个流行的 HTML 解析库，用于处理 HTML 文档的结构和内容。您可以通过 NuGet 管理器或者命令行安装它：
```
Install-Package HtmlAgilityPack
```
创建一个新的 .NET Core 项目

打开 Visual Studio 或者使用命令行工具创建一个新的 .NET Core 控制台应用程序：
```
dotnet new console -n SimpleWebCrawler
cd SimpleWebCrawler
```

引用所需的命名空间

在程序的顶部引入需要的命名空间：

using HtmlAgilityPack;
using System;
using System.Net.Http;
using System.Threading.Tasks;

实现网页爬虫

现在，让我们开始编写网页爬虫的代码。以下是一个简单的示例，演示如何获取指定网页的标题和所有的链接。

using HtmlAgilityPack;
using System;
using System.Net.Http;
using System.Threading.Tasks;

class Program
{
    static async Task Main(string[] args)
    {
        string url = "https://example.com"; // 设置要爬取的网页 URL

        var httpClient = new HttpClient();
        var html = await httpClient.GetStringAsync(url);

        var htmlDocument = new HtmlDocument();
        htmlDocument.LoadHtml(html);

        // 获取网页标题
        var titleNode = htmlDocument.DocumentNode.SelectSingleNode("//title");
        string title = titleNode.InnerText.Trim();

        Console.WriteLine($"网页标题: {title}");

        // 获取所有链接
        var linkNodes = htmlDocument.DocumentNode.SelectNodes("//a[@href]");
        Console.WriteLine("\n所有链接:");
        foreach (var linkNode in linkNodes)
        {
            string link = linkNode.Attributes["href"].Value;
            Console.WriteLine(link);
        }
    }
}

解释代码

HttpClient：用于发起 HTTP 请求并获取网页内容。
HtmlDocument 和 HtmlNode：来自 HtmlAgilityPack，用于解析和查询 HTML 文档的节点和内容。
Main 方法：程序的入口点，异步执行网页爬取操作。
url 变量：指定要爬取的网页地址。

运行结果

编译并运行程序，将会输出指定网页的标题和所有链接：

网页标题: Example Domain

所有链接:
https://www.iana.org/domains/example

结论

通过这篇博文，我们学习了如何使用 C# 编写一个简单的网页爬虫，获取网页的标题和所有链接。这只是一个入门级的示例，您可以根据实际需求扩展功能，例如存储数据、处理异常或者实现更复杂的爬取逻辑。希望这篇文章能帮助您开始探索和应用 C# 中的网页爬虫技术！

逍遥Sean

关注

4
点赞
踩
9

收藏

觉得还不错? 一键收藏
打赏
0
评论
C#实战 - 使用 C# 编写简单的网页爬虫

在本篇博文中，我们将介绍如何使用 C# 编写一个简单的网页爬虫，来获取指定网页的内容。我们将使用 .NET Core 环境，并依赖于 HtmlAgilityPack 库来解析 HTML。让我们逐步实现这个爬虫的过程。@[TOC](使用 C# 编写简单的网页爬虫)#### 准备工作1. **安装 HtmlAgilityPack 库** HtmlAgilityPack 是一个流行的 HTML 解析库，用于处理 HTML 文档的结构和内容。您可以通过 NuGet 管理器或者命令行安装它：
复制链接

扫一扫