c# 解析网页

最新推荐文章于 2024-12-06 13:57:24 发布

原创

最新推荐文章于 2024-12-06 13:57:24 发布 · 943 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#c# #开发语言 #后端

前言
　　前几天写了个爬虫，然后认识到了自己的不足。烽火情怀推荐了Jumony.Core，通过倚天照海- -推荐的文章，也发现了Jumony.Core。

研究了2天，我发现这个东西简单粗暴，非常好用，因为语法比较像jQuery。上手快，也很好理解。

回到顶部
添加DLL
　　IDE是Visual Studio ，我是在NugGet中搜索，并添加到项目中。

回到顶部
Jumony的用法
1、从网站获取html代码，将html字符串分析为标准的文档对象模型（DOM）。


IHtmlDocument source = new JumonyParser().LoadDocument("http://www.23us.so/files/article/html/13/13655/index.html", System.Text.Encoding.GetEncoding("utf-8"));

Jumony的API可以从互联网上直接抓取文档分析，并根据HTTP头自动识别编码，但是上面的网站怎么也无法获取到html，其他网站就没问题（例如博客园、起点），后来我把源码下载下来，一步步测试，发现html是获取到的，但是乱码，导致了Jumony类库分析html文本的时候，分析的不正确。解决办法就是设置utf-8。

2、获取所有的meta标签


var aLinks = source.Find("meta");//获取所有的meta标签
foreach (var aLink in aLinks)
{
   
   
    if (aLink.Attribute("name").Value() == "keywords")
    {
   
   
        name = aLink.Attribute("content").Value();//无疆,无疆最新章节,无疆全文阅读
    }
}

3、获取 name=keywords 的meta标签，并得到content属性里的值

string name = source.Find("meta[name=keywords]").FirstOrDefault()

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

hu炸炸

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

C# 使用正则解析html

学习和分享

07-15

599

在C#中使用正则表达式来解析HTML并不是一个推荐的做法，因为HTML的复杂性（如嵌套标签、属性等）往往使得正则表达式难以精确处理。HTML是嵌套结构，而正则表达式更适合处理线性或简单的文本模式。然而，如果你确实需要快速处理一些简单的HTML文本，并且了解潜在的限制和风险，以下是一个使用正则表达式在C#中解析HTML的示例。

网页解析高手：C#和HtmlAgilityPack教你下载视频

ip16yun的博客

03-26

653

小红书是一个以生活方式、购物和美妆为主题的社交平台，用户可以在平台上分享生活经验、购物心得和美妆技巧等内容。其中，视频内容在用户中享有广泛的受欢迎度，因此如何有效地获取和下载小红书视频成为了一项有趣的挑战。

参与评论您还未登录，请先登录后发表或查看评论

C# 网页分析

10-19

C# 网页分析抓取

C# 爬虫 Jumony-html解析

weixin_30477293的博客

09-07

647

前言　　前几天写了个爬虫，然后认识到了自己的不足。烽火情怀推荐了Jumony.Core，通过倚天照海- -推荐的文章，也发现了Jumony.Core。　　研究了2天，我发现这个东西简单粗暴，非常好用，因为语法比较像jQuery。上手快，也很好理解。添加DLL 　　IDE是Visual Studio2013，我是在NugGet中搜索，并添加到项目中。　　 Jumony的用法 ...

c#抓取网页分析

haichanglin的专栏

11-23

2441

c#抓取网页分析目的：抓取网页，分析网页内容，进行处理获取信息。例子：抓km169上的adsl用户的费用信息，分析存储到本地数据库。步骤：1、抓取。2、分析。3、存储。

c#抓取和分析网页的类

weixin_34080571的博客

04-25

174

抓取和分析网页的类。主要功能有： 1、提取网页的纯文本，去所有html标签和javascript代码 2、提取网页的链接，包括href和frame及iframe 3、提取网页的title等(其它的标签可依此类推，正则是一样的) 4、可以实现简单的表单提交及cookie保存 /* * Author:Sunjoy at CCNU * 如果您改进了这个类请发一份代码给我(ccnusjy 在gm...

浅谈C#解析网页

weixin_34228387的博客

05-08

253

最近做了一个项目，要求获取各大主流网页上的关键信息，本人以前了解过网页爬虫的知识，所以想到了网页爬虫了实现功能第一次尝试：采用webclient获取远程网页的内容，然后采用正则表达式进行过滤但，由于正则表达式对我来说，书写起来比较复杂，研究个大半个月，一点进展都没有，每天看着正则表达式像看天书（回头需要向正则牛逼的人请教一下）第一次尝试失败，项目马上就要验收了，这个功能一直卡壳了，...

C#下解析HTML的两种方法介绍

09-05

在C#中解析HTML是常见的任务，特别是在开发网络爬虫或进行网页数据提取时。本文将详细介绍两种不同的方法，帮助开发者有效地处理HTML内容。第一种方法是使用`System.Net.WebClient`类配合正则表达式。`WebClient`...

精选资源

C# 使用XPath解析网页-附件资源

03-05

C# 使用XPath解析网页-附件资源

C#抓取网页数据、分析并且去除HTML标签

zhang, yan-feng

09-14

835

首先将网页内容整个抓取下来，数据放在byte[]中（网络上传输时形式是byte），进一步转化为String，以便于对其操作，实例如下：private static string GetPageData(string url){ if (url == null || url.Trim() == "") return null; WebClient wc = new We

C#抓取网页数据解析标题描述图片等信息去除HTML标签

01-01

一、首先将网页内容整个抓取下来，数据放在byte[]中（网络上传输时形式是byte），进一步转化为String，以便于对其操作，实例如下：代码如下: private static string GetPageData(string url) { if (url == null || url.Trim() == “”) return null; WebClient wc = new WebClient(); wc.Credentials = CredentialCache.DefaultCredentials; Byte[] pageData

C#从指定的网站提取网页内容

11-10

本程序使用多线程从特定网页中提取textarea块中的内容。具体从http://www.veryhuo.com提取中间演示textarea内的html文本，从(网页特效代码)->(详细分类)->html网页中textarea内容，程序内使用了1.多线程 2.正则表达式 3.web文件读取 4.本地文件保存及编码问题。线程挂起没实现好像用ThreadPool可以暂停纯种线程。

简单的C#网页分析示例（以淘宝为例）

07-12

这是一个简单的C#编程示例，是我在微软网站上看了一些教程后，第一次用C#语言编码训练的结果，选择了使用使用HttpWebRequest和HttpWebResponse类进行网页获取和正则表达式进行网页分析作为课题。该训练主要使用HttpWebRequest和HttpWebResponse类实现了网页的申请工作，同时也对网页进行了一些简单的分析。在示例中选取的分析网页是淘宝的交易网页（为了避免相关问题，使用的是一年之前的网页，现在的实际网页应该已经进行修改了），该网页交易过程较典型，且网页代码混乱，对于处理此类网页在该示例中提出了一点思路，大家可以参考。在网页分析过程中，主要是实现了一个自动购买过程： 1 直接提交登录网页信息，进行登录 2 获取产品网页信息，分析产品属性信息，根据用UI界面设置选项，提交购买信息 3 从购买信息提交过程中获取购买页面，从页面中分析提取交易信息，如果有验证码，弹出窗口提示用户输入验证码，并根据UI界面设置相关选项 4 提交购买请求 5 如果购买成功，提示用户付款

C#代码直接显示网页，能够读取网页内容！

08-06

C#代码直接显示网页，能够读取网页内容！

C# HTML解析类库（含Demo，手册）

05-09

C# HTMLParser HTML解析类库（含Demo，手册）

C# 实现网页源码提取与解析