HTMLParser.HTMLParseError: junk characters in start tag处理

最新推荐文章于 2019-04-12 14:40:31 发布

bestdowt1314

最新推荐文章于 2019-04-12 14:40:31 发布

阅读量2.3k

点赞数

分类专栏： bug处理 Python 学习笔记文章标签： div

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bestdowt1314/article/details/6138803

版权

Python 学习笔记同时被 2 个专栏收录

28 篇文章 0 订阅

订阅专栏

11 篇文章 0 订阅

订阅专栏

利用HTMLParser解析带有中文属性的标签，例如："<DIV id=topinfomsg><FONT style="FONT-WEIGHT: normal; LINE-HEIGHT: normal; FONT-STYLE: normal; FONT-VARIANT: normal" face=新宋体 color=#ff0000>提醒您：</FONT>要求您先汇款的行为可能涉嫌欺诈，建议您尽量选择当面交易。</DIV>"

会出现如下错误：

raise HTMLParseError(message, self.getpos())

HTMLParser.HTMLParseError: junk characters in start tag: u'/u5468/u6da6/u53d1 src="/html"/>', at line 1, column 1

是因为face=新宋体没有按规则来，应该是face="新宋体"才对.

所以要考试中文的问题，所以我一般把数据取出来，然后就用正则把它过滤了，现在就行了

detail_data=re.sub('face=[^/x00-/xff]{2,5}', '', detail_data)

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
HTMLParser.HTMLParseError: junk characters in start tag处理

<br /><br />利用HTMLParser解析带有中文属性的标签，例如："<DIV id=topinfomsg><FONT style="FONT-WEIGHT: normal; LINE-HEIGHT: normal; FONT-STYLE: normal; FONT-VARIANT: normal" face=新宋体 color=#ff0000>提醒您：</FONT>要求您先汇款的行为可能涉嫌欺诈，建议您尽量选择当面交易。</DIV>"<br />会出现如下错误：<br /> <br /> <b
复制链接

扫一扫

专栏目录

bestdowt1314 CSDN认证博客专家 CSDN认证企业博客

码龄18年

93: 原创

23万+: 周排名

203万+: 总排名

21万+: 访问

: 等级

3855: 积分

507: 粉丝

12: 获赞

57: 评论

17: 收藏

私信

关注

热门文章

分类专栏

最新评论

Mac 如何将默认执行的Python2改为Pyhton3.7
CURD工程师: 这么做确实起作用了，但是关闭终端，再次打开查看，就还是显示2.7 只是临时有效，请问这是什么原因，或者您遇到过这样的情况吗？
Mac为Python3.7 安装 pip3
一只喋喋不休的菜鸡: 这么简单的吗？虽然我用的不是这个方法，但是这个方法比我查的其他的简单好多
什么情况下用多线程编程
suizouwuya 回复 haibo_rich: 在这个环境中，如果以人为参考主要对象，是说的人的单线程还是多线程，也就是一个人还是两个人；而你说的煮饭和炒菜是另外一个模型环境，那个环境针对于电器，是对于电的利用来说的，CPU和电在这里概念不同，因为CPU的最大功率是固定的，而电的最大输出功率完全满足电饭煲和电磁炉的功用，也就是单一运行电饭煲或者电磁炉不能够最高效利用电能，电饭煲线程或者电磁炉线程都不能充分利用CPU资源。如果能够把电饭煲改造为家用电最大功率，那就是单线程了，不过这样太不安全，而且也没有这种电饭煲发明出来。重新回到正题，在题目里面，一直是以人为中心的，也就是人是这里面的CPU。他在用电饭煲煮饭的时候，不需要一直盯着，所以造成资源闲置，那么这个线程还可以去做点别的事，比如炒菜，只要偶尔查看一下饭有没有煮熟就好了，此时煮饭工作和炒菜工作充分利用了人的资源，但是炒菜工作的发起者是人，煮饭工作的发起人也是人，所以这里只有人这一个单线程。
python 编写获取阿里巴巴行业分类数据代码
chinabowens: 我需要一份4975042@qq.com,如果是目前最新的,我可以少许有偿使用.
VS2010 切换到设计界面无响应
hjq5456 回复微wx笑: 后来有解决了吗？我也一直这样

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。