用python解码html实体

最新推荐文章于 2024-08-17 03:52:20 发布

weixin_34015566

最新推荐文章于 2024-08-17 03:52:20 发布

阅读量952

点赞数

文章标签： python

原文链接：http://blog.51cto.com/pcliuyang/1532340

版权

采集下来的网页，有时有一些html实体，有库可以直接替换掉

通常用的是HTMLParser库或者lxml库

直接贴代码

#coding=utf-8

test_string=u"环球老虎财经: 交通银行（601328.SH）混合所有制&#34;起底&#34; "

import HTMLParser
print HTMLParser.HTMLParser().unescape(test_string)

import lxml.html
x=lxml.html.fromstring(test_string)
print x.text_content()

注意一点的，传入的字符串都要求unicode字符串

update:

上面的lxml中text_content()返回的无标签网页文本，使用会有局限性，所以还是推荐用HTMLParser库

转载于:https://blog.51cto.com/pcliuyang/1532340

weixin_34015566

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

weixin_34015566 CSDN认证博客专家 CSDN认证企业博客

码龄9年

153: 原创

-: 周排名

133万+: 总排名

136万+: 访问

: 等级

7582: 积分

4859: 粉丝

334: 获赞

18: 评论

2185: 收藏

私信

关注

热门文章

最新评论

京东手机商品详情页技术解密
weixin_m1132442666: 京东到家能不能实现多账号对一个商品批量下单
爬取百度地图 POI 数据
nandou_xinxi: 这个能用吗，我就想简单导出一下公司要的数据
mcollective插件（shell plugins）功能在Linux系统上无所不能
挨-踢菜菜: mco插入的时候，双引号不显示，很是尴尬
明天面试？吓得我赶紧手写了一个Spring
兔子也发飙: 代码过期了吗
用vmware运行简单的引导代码
猿来如此丫: 这个为什么引导程序启动的时候会有乱码？求解答 CODE SEGMENT ASSUME CS:CODE start:mov ax,cs mov es,ax //使附加段和代码段为一个段 mov ss,ax call DispStr DispStr:mov ax,offset BootMessage mov bp,ax //将BootMessage定义的字符串地址的偏移量给bp mov cx,13 //输出字符的个数 mov ax,01301h //AH=13 AL=01， mov bx,000ch // mov dl,0 int 10h //调用BIOS的10H中断，AL=写模式，BH=页码，BL=颜色，CX=字符串长度，DH=行，DL=列，ES:BP=字符串偏移量 ret BootMessage:db "This is my OS" times db 510-($-offset start) dup(0) //将本语句后到510字节的代码段空间用0填充 dw 0aa55h //最后两个字节填入AA55 CODE ENDS END START

大家在看

【教程4＞第3章＞第12节】16PSK调制系统的FPGA开发与matlab验证

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。