爬虫技术 -- 进阶学习（十一）【补充】获取html中meta标签中的content的内容

最新推荐文章于 2023-08-29 14:56:26 发布

aijie6150

最新推荐文章于 2023-08-29 14:56:26 发布

阅读量1.2k

点赞数

文章标签： python 爬虫 java

原文链接：http://www.cnblogs.com/lmei/p/3678567.html

版权

上一篇网易新闻页面信息抓取 -- htmlagilitypack搭配scrapysharp中提及了很多如何快速抓取html中的文本的语句，

但是meta标签中的content内容的抓取，没有提及到！

上网搜索了下，发现很少提及，所以写篇随笔，备忘一下！

还是在HtmlAgillityPack搭配ScrapySharp的环境下，具体如何配置点击上一篇链接。

例子：<meta name="keywords" content="召开新闻,自流沟,含油污水" />

提取效果：把文本【召开新闻,自流沟,含油污水】提取出来.

核心代码：

 var html1 = browser1.DownloadString(uri); 
 var doc = new HtmlDocument(); 
 doc.LoadHtml(html1);
 var keywords = doc.DocumentNode.SelectSingleNode("//meta[@name='keywords']").GetAttributeValue("content");

然后执行Console.WriteLine(keywords);

输出：召开新闻,自流沟,含油污水

转载于:https://www.cnblogs.com/lmei/p/3678567.html

aijie6150

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
爬虫技术 -- 进阶学习（十一）【补充】获取html中meta标签中的content的内容

上一篇网易新闻页面信息抓取 -- htmlagilitypack搭配scrapysharp中提及了很多如何快速抓取html中的文本的语句，但是meta标签中的content内容的抓取，没有提及到！上网搜索了下，发现很少提及，所以写篇随笔，备忘一下！还是在HtmlAgillityPack搭配ScrapySharp的环境下，具体如何配置点击上一篇链接。例子：<meta ...
复制链接

扫一扫