C# 爬虫，抓取网页数据

最新推荐文章于 2024-07-31 15:56:04 发布

xiaoqiu_net

最新推荐文章于 2024-07-31 15:56:04 发布

阅读量1w

点赞数 3

分类专栏： C# 文章标签： C#爬虫

本文链接：https://blog.csdn.net/q646926099/article/details/52397478

版权

本文介绍了使用C#进行网页爬虫开发的经验，重点是利用Jumony Core引擎解析HTML并用CSS3选择器提取数据。通过爬虫抓取的商品数据被存储到Excel表格中，同时展示了如何抓取博客园站点导航的顶端信息，并提供了一个简单的操作类库封装示例。

摘要由CSDN通过智能技术生成

这两天学习了爬虫的基础，这里简单总结一下。

抓取到的网页商品数据，存入Excel表格，效果如下：

使用的是 Jumony Core这个引擎，非常强大，近乎完美的HTML解析引擎，支持css3选择器，直接抓取网页文档分析，并根据HTTP头自动识别。

抓取博客园站点导航顶端信息示例：

var documents = new JumonyParser().LoadDocument("http://www.cnblogs.com/").Find("#site_nav_top").FirstOrDefault();

太强大了，如果你熟悉css，根本不用自己去手动写一大堆可读性差的正则表达式去匹配取数据。

封装一个简单的操作类库：

    public class BaseAnalyzer
    {
        /// <summary>
        /// 根据Url加载html文档对象
        /// </summary>
        /// <param name="url"></param>
        /// <returns></returns>
        protected virtual IHtmlDocument LoadDocument(string url)
        {
            return new JumonyParser().Lo