C# 爬虫,抓取网页数据

本文介绍了使用C#进行网页爬虫开发的经验,重点是利用Jumony Core引擎解析HTML并用CSS3选择器提取数据。通过爬虫抓取的商品数据被存储到Excel表格中,同时展示了如何抓取博客园站点导航的顶端信息,并提供了一个简单的操作类库封装示例。
摘要由CSDN通过智能技术生成

这两天学习了爬虫的基础,这里简单总结一下。

抓取到的网页商品数据,存入Excel表格,效果如下:


使用的是 Jumony Core这个引擎,非常强大,近乎完美的HTML解析引擎,支持css3选择器,直接抓取网页文档分析,并根据HTTP头自动识别。

抓取博客园站点导航顶端信息示例:

var documents = new JumonyParser().LoadDocument("http://www.cnblogs.com/").Find("#site_nav_top").FirstOrDefault();
太强大了,如果你熟悉css,根本不用自己去手动写一大堆可读性差的正则表达式去匹配取数据。

封装一个简单的操作类库:

    public class BaseAnalyzer
    {
        /// <summary>
        /// 根据Url加载html文档对象
        /// </summary>
        /// <param name="url"></param>
        /// <returns></returns>
        protected virtual IHtmlDocument LoadDocument(string url)
        {
            return new JumonyParser().Lo
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值