Less.Html 示例三:与 WebClient 的配合使用,以抓取 CSDN 论坛内容为例

原创 2017年06月27日 12:46:42

WebClient 是做内容采集经常会用到的类,提供了方便的获取网页内容的方法。但是获取到的是字符串类型,如果使用 Less.Html 解析成节点树,可以大大的加快开发的速度:

WebClient client = new WebClient();

client.Encoding = Encoding.UTF8;

string aspDotNet = client.DownloadString(
    "http://bbs.csdn.net/forums/ASPDotNET");

var q = HtmlParser.Query(aspDotNet);

var title = q("table.child_forum tr td.title");

foreach (Element i in title)
{
    q(i).find(".forum_link").remove();

    this.WriteLine(i.textContent);
}

上面的代码以抓取 CSDN 的 asp.net 论坛为例,列出了帖子的列表,代码总共就这么几行。

css 选择器参数“table.child_forum tr td.title”就指定了帖子列表的标题,在循环的时候,调用了 remove 方法,这是因为标题里面有一个隐藏的元素,然后用 DOM 标准的 textContent 属性输出元素里面的文本内容就可以了。

本示例代码:GitHub    码云

运行结果:

python 抓取天涯帖子内容并保存

手把手教你利用Python下载天涯热门帖子为txt文档 作者:大捷龙 csdn : http://blog.csdn.net/koanzhongxue**分析:天涯的帖子下载可以分为以下...
  • koanzhongxue
  • koanzhongxue
  • 2015年05月14日 02:48
  • 2950

第99讲:使用sparkStreaming实战对论坛网站动态行为的多维度分析下

/* * 第99讲,消费者消费SparkStreamingDataManuallyProducerForKafka类中逻辑级别产生的数据,这里pv,uv,注册人数,跳出率的方式 ...
  • qq_21234493
  • qq_21234493
  • 2016年05月19日 07:19
  • 1129

python 爬虫实战 抓取学校bbs相关板块的发帖信息

1. 前言之前也因为感兴趣, 写过一个抓取桌面天空里面喜欢的动漫壁纸的爬虫代码。这两天突然看到有人写了这么一篇文章: 爬取京东本周热卖商品基本信息存入MySQL 觉得蛮有趣的, 正好临近找工作的季...
  • zhyh1435589631
  • zhyh1435589631
  • 2016年05月03日 13:32
  • 6025

Less.Html 示例四:与 WebBrowser 的配合使用,以抓取京东手机价格为例

很多网页使用了 ajax 技术,浏览器地址栏的链接并不返回全部的内容,而是在加载文档之后,采用异步的请求获取对应的内容。京东商城的商品价格就是 ajax 获取的。这样做有可能是为了优化速度,也有可能是...
  • closurer
  • closurer
  • 2017年06月29日 11:57
  • 208

通过WebClient类来发起请求并下载html 抓取邮箱 图片

using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.N...
  • blacop
  • blacop
  • 2016年11月01日 22:48
  • 307

爬 CSDN 1024程序员节论坛作者内容点赞量

好久没写博客了,还好本熊(不是熊本熊)不写小说,不然扔过来的砖都够盖小房子了。闲话少叙,进入正题 今天刚刚爬了csdn论坛有关程序员节的内容,诺。。就他 http://blog.csdn.net/10...
  • KUKI123321
  • KUKI123321
  • 2016年11月16日 20:52
  • 454

HTML 多个下拉框联动 JS 示例代码(论坛回复摘要)

问题 HTML 多个下拉框有相同的数据,选中一个数据其他下拉框删除这个数据,用js怎么实现 1 2 3 4 5 6 7 8 ...
  • jswatcher
  • jswatcher
  • 2013年03月20日 20:25
  • 815

linux中less命令使用详解(内容分页显示)

less 工具也是对文件或其它输出进行分页显示的工具,应该说是linux正统查看文件内容的工具,功能极其强大。less 的用法比起 more 更加的有弹性。 less 工具也是对文件或其它输出进...
  • weinichendian
  • weinichendian
  • 2017年06月13日 09:31
  • 252

Ubuntu Linux 命令整理(四)使用less,more,tail,head显示文件/输出内容

more是我们最常用的工具之一,最常用的就是显示输出的内容,然后根据窗口的大小进行分页显示,然后还能提示文件的百分比; # more /etc/profile   more 的语法、参数和...
  • dazhi_100
  • dazhi_100
  • 2015年04月13日 10:31
  • 3013

HTML仿CSDN博文内容摘要样式

前言     因为要搭建自己的个人网站,以作学习总结用,平时也会在网站发表文章用,还是很喜欢CSDN这样大气显示内容摘要的风格,于是就借用了一下CSDN的样式,在我的网站显示效果如下: 本示例代码的...
  • mybelief321
  • mybelief321
  • 2016年01月29日 22:29
  • 744
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Less.Html 示例三:与 WebClient 的配合使用,以抓取 CSDN 论坛内容为例
举报原因:
原因补充:

(最多只允许输入30个字)