python 提取网页 charset 的方法

最新推荐文章于 2024-03-15 14:44:23 发布

用户昵称不能为空

最新推荐文章于 2024-03-15 14:44:23 发布

阅读量3.7k

点赞数 2

分类专栏： python 文章标签： python html

本文链接：https://blog.csdn.net/default7/article/details/59754972

版权

python 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

经过十几万网页采集测试，有效率99.99%

def pick_charset(html):
    """
    从文本中提取 meta charset
    :param html:
    :return:
    """
    charset = None
    m = re.compile('<meta .*(http-equiv="?Content-Type"?.*)?charset="?([a-zA-Z0-9_-]+)"?', re.I).search(html)
    if m and m.lastindex == 2:
        charset = m.group(2).lower()
    return charset

注意引入 re，如果有更好的方法欢迎联系 coconets@163.com

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

用户昵称不能为空

关注关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
python 提取网页 charset 的方法

经过十几万网页采集测试，有效率99%def pick_charset(html): """ 从文本中提取 meta charset :param html: :return: """ charset = None m = re.compile('<meta .*(http-equiv="?Content-Type"?.*)?charset="?
复制链接

扫一扫