xpath和htmlparser的配合使用

最新推荐文章于 2022-09-02 23:30:39 发布

uestcyao

最新推荐文章于 2022-09-02 23:30:39 发布

阅读量4.5k

点赞数

分类专栏： py web抓取分析文章标签： html xml

本文链接：https://blog.csdn.net/uestcyao/article/details/7881258

版权

xpath只能够处理标准的xml文件，即每个开始标签必须对应一个结束标签的情况。而htmlparser只需要处理标签即可。那么问题是怎么样把一个html文件的落单的标签处理掉呢？全市java的代码，就没有一个python的示范代码么？

/// <summary>
    /// 解析Xml文件的帮助类
    /// </summary>
    public class XMLHelper
    {
        /// <summary>
        /// 有效名称的正则表达式
        /// </summary>
        static string validName = @"^[^/$//;""/!#/)/.]+$";

        #region CovertHtmlToXml
        /// <summary>
        /// 转换html源码为xml格式
        /// </summary>
        /// <param name="html">html源码</param>
        /// <returns>xml字符串</returns>
        /// <param name="TargetTag">需转换的标记名</param>
        public static string CovertHtmlToXml(string html, string targetTag)
        {
            try
            {
                XmlDocument doc = new XmlDocument();
                XmlNode xmlDeclaration = doc.CreateXmlDeclaration("1.0", "utf-8", null);
                doc.AppendChild(xmlDeclaration);

                // 借助htmlparser解析html内容
                Parser parser = Parser.CreateParser(html, "GBK");
                // 筛选出指定的节点
                TagNameFilter tnf = new TagNameFilter(targetTag);
                NodeList nodes = parser.Parse(tnf);

                // 创建根节点
                XmlElement root = doc.CreateElement("Tags

最低0.47元/天解锁文章

uestcyao

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
xpath和htmlparser的配合使用

xpath只能够处理标准的xml文件，即每个开始标签必须对应一个结束标签的情况。而htmlparser只需要处理标签即可。那么问题是怎么样把一个html文件的落单的标签处理掉呢？全市java的代码，就没有一个python的示范代码么？/// /// 解析Xml文件的帮助类 /// public class XMLHelper { ///
复制链接

扫一扫