处理文字数据踩过的坑

最近笔者尝试使用一些文字数据,发现有很多奇怪的东西
比如:
乍一看数据看着挺正常的,但是:

Possibly the best police drama series since "police story"  and "naked city".

" 是什么,不只是 " 还有’ “ … 很多,但是,仔细观察会发现它们都是成对出现的,而且形式也很一致。

实际上,它是在这段数据中有html标签,处理方法:
python代码:

    tree = etree.fromstring("<html>" + text + "</html>") //text 为String 数据
    print(count, tree.text)

这个时候就会有新的问题:

lxml.etree.XMLSyntaxError: xmlParseEntityRef: no name, line 1, column 3283

经笔者排查,发现是因为文字里面有一些不是html标签,但是使用&符号的文字,解决方法,将这些&替换成&amp;

text = text.replace(' & ', ' &amp; ').replace('& ', '&amp; ')

但是还是会有问题:

lxml.etree.XMLSyntaxError: Entity 'eacute' not defined, line 1, column 4318

这是因为,&eacute 在这里不能被识别
方法:

text = text.replace('&eacute', '&#233;').replace('&egrave', '&#232;').replace('&euro', '&#8364;')

解决

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值