Less.Html 示例三:与 WebClient 的配合使用,以抓取 CSDN 论坛内容为例

原创 2017年06月27日 12:46:42

WebClient 是做内容采集经常会用到的类,提供了方便的获取网页内容的方法。但是获取到的是字符串类型,如果使用 Less.Html 解析成节点树,可以大大的加快开发的速度:

WebClient client = new WebClient();

client.Encoding = Encoding.UTF8;

string aspDotNet = client.DownloadString(
    "http://bbs.csdn.net/forums/ASPDotNET");

var q = HtmlParser.Query(aspDotNet);

var title = q("table.child_forum tr td.title");

foreach (Element i in title)
{
    q(i).find(".forum_link").remove();

    this.WriteLine(i.textContent);
}

上面的代码以抓取 CSDN 的 asp.net 论坛为例,列出了帖子的列表,代码总共就这么几行。

css 选择器参数“table.child_forum tr td.title”就指定了帖子列表的标题,在循环的时候,调用了 remove 方法,这是因为标题里面有一个隐藏的元素,然后用 DOM 标准的 textContent 属性输出元素里面的文本内容就可以了。

本示例代码:GitHub    码云

运行结果:

版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

通过WebClient类来发起请求并下载html 抓取邮箱 图片

using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.N...

HTML 多个下拉框联动 JS 示例代码(论坛回复摘要)

问题 HTML 多个下拉框有相同的数据,选中一个数据其他下拉框删除这个数据,用js怎么实现 1 2 3 4 5 6 7 8 ...

linux中less命令使用详解(内容分页显示)

less 工具也是对文件或其它输出进行分页显示的工具,应该说是linux正统查看文件内容的工具,功能极其强大。less 的用法比起 more 更加的有弹性。 less 工具也是对文件或其它输出进...

网卡的工作模式及iwconfig 使用手册(内容很丰富,有用,转自Openwrt论坛)

原帖地址:http://www.openwrt.org.cn/bbs/forum.php?mod=viewthread&tid=474 无线网卡常见的工作模式有Master、Managed、ad-h...

JAVA读取WORD,EXCEL,PDF,TXT,RTF,HTML文件文本内容的方法示例 .

WORD Java代码  package textReader;    import java.io.*;    import org.apache.poi.h...

JAVA读取WORD,EXCEL,PDF,TXT,RTF,HTML文件文本内容的方法示例

以下是Java对几种文本文件内容读取代码。其中,OFFICE文档(WORD,EXCEL)使用了POI控件,PDF使用了PDFBOX控件。 WORD: package textReader; ...
  • zlb824
  • zlb824
  • 2011-11-28 16:52
  • 1136

Solr 使用入门介绍,以搜索论坛帖子为示例

版权信息: 可以任意转载, 转载时请务必以超链接形式标明文章原文出处, 即下面的声明. 原文出处:点击打开链接 原文还介绍了solr的部署,由于前面我已经有过一篇文章了,所以省略 为搜索论坛...

JAVA读取WORD,EXCEL,PDF,TXT,RTF,HTML文件文本内容的方法示例

以下是Java对几种文本文件内容读取代码。其中,OFFICE文档(WORD,EXCEL)使用了POI控件,PDF使用了PDFBOX控件。   点击这里 查看相关控件的下载地址和配置方法。 ...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)