【Python爬虫】HTML文本的各种转化

最新推荐文章于 2022-01-20 23:09:28 发布

看见我书了吗

最新推荐文章于 2022-01-20 23:09:28 发布

阅读量4k

点赞数

分类专栏：爬虫

本文链接：https://blog.csdn.net/qq_43572758/article/details/104566097

版权

爬虫专栏收录该内容

19 篇文章 0 订阅

订阅专栏

HTML文本的各种转化:

源码：

from lxml import etree
from lxml.html import tostring

html = '''
<html>
    <body>
        中文
    </body>
</html>
'''
print('----------------------------------原始字符--------------------------------------')
print(html)
print('--------------------------------xpath解析对象-------------------------------------')
html = etree.HTML(html)
print(html)
print('-----------------------------------二进制-------------------------------------')
print(tostring(html))
print('-----------------------------------utf-8-------------------------------------')
print(tostring(html).decode('utf-8'))
print('-----------------------------------获取文本-------------------------------------')
print(html.xpath('./body/text()'))
print('------------------------------------------------------------------------')

输出结果:

----------------------------------原始字符--------------------------------------

<html>
    <body>
        中文
    </body>
</html>

--------------------------------xpath解析对象-------------------------------------
<Element html at 0x210abbc9d88>
-----------------------------------二进制-------------------------------------
b'<html>\n    <body>\n        &#20013;&#25991;\n    </body>\n</html>'
-----------------------------------utf-8-------------------------------------
<html>
    <body>
        &#20013;&#25991;
    </body>
</html>
-----------------------------------获取文本-------------------------------------
['\n        中文\n    ']
------------------------------------------------------------------------