这两天学习了爬虫的基础,这里简单总结一下。
抓取到的网页商品数据,存入Excel表格,效果如下:
使用的是 Jumony Core这个引擎,非常强大,近乎完美的HTML解析引擎,支持css3选择器,直接抓取网页文档分析,并根据HTTP头自动识别。
抓取博客园站点导航顶端信息示例:
var documents = new JumonyParser().LoadDocument("http://www.cnblogs.com/").Find("#site_nav_top").FirstOrDefault();
太强大了,如果你熟悉css,根本不用自己去手动写一大堆可读性差的正则表达式去匹配取数据。
封装一个简单的操作类库:
public class BaseAnalyzer
{
/// <summary>
/// 根据Url加载html文档对象
/// </summary>
/// <param name="url"></param>
/// <returns></returns>
protected virtual IHtmlDocument LoadDocument(string url)
{
return new JumonyParser().Lo