Python urllib2.urlopen 编码问题处理

本文介绍如何在Python爬虫中处理URL中文内容,通过chardet库检测并解码编码,确保数据正确存储到数据库。
摘要由CSDN通过智能技术生成

使用 urllib2.urlopen 读取给定 URL 的内容,然后使用 re 解析这些内容并将它们存储到列表中。但是,在存储列表到数据库时遇到了编码问题。

  • 尝试使用 req = urllib2.urlopen(forum_url, None, timeout=10) 从给定 URL 读取内容,然后使用 url_content = req.read() 读取内容。

  • 然后,使用正则表达式解析 url_content

  • 之后,将内容保存到数据库。

  • 如果 url_content 完全是英文,那么一切正常。但是,如果内容中包含中文,则 make_insert_sql 会崩溃。

  • 可以通过 url_content = req.read().decode('gbk') 来解决这个问题。但是,如果内容完全是英文,那么这次它会崩溃。
    在这里插入图片描述

2. 解决方案

  • 使用 chardet 库来自动检测 URL 内容的编码。

  • 如果检测到编码是 GBK,则对内容进行解码。

  • 否则,不进行解码。

import urllib2
import re
import chardet

def parse_post_title(content):
    url_pattern = "<a href=\"read.php\?tid=.*\" id=\".*\" class=\"subject fl\">(.*)</a>"
    title = ''
    m = re.search(url_pattern, content)
    if m:
    http://www.jshk.com.cn/mb/reg.asp?kefu=xiaoding;//爬虫IP免费获取;
        title = m.group(1)
    return title

def make_insert_sql(post_list):
    insert_list = []
    for post_data in post_list:
        insert_str = u'("%s", "%s", "%s", "%s", %d, %d, "%s", "%s", %d, %d)' % (post_data.forum_name,
                                                                                post_data.sub_forum,
                                                                                post_data.post_name,
                                                                                post_data.xxx,
                                                                                post_data.xxx,
                                                                                post_data.xxx,
                                                                                post_data.xxx,
                                                                                post_data.xxx,
                                                                                post_data.xxx,
                                                                                post_data.xxx)
        insert_list.append(insert_str)
    return ','.join(insert_list)

def main():
    forum_url = 'http://www.example.com/forum.php'
    req = urllib2.urlopen(forum_url, None, timeout=10)
    url_content = req.read()

    # 检测编码
    encoding = chardet.detect(url_content)['encoding']

    # 如果是 GBK,则解码
    if encoding == 'gbk':
        url_content = url_content.decode('gbk')

    # 解析内容
    post_list = []
    for title in re.findall(r'<a href=\"read.php\?tid=.*\" id=\".*\" class=\"subject fl\">(.*)</a>', url_content):
        post_list.append(PostData(title=title))

    # 将内容保存到数据库
    insert_sql = make_insert_sql(post_list)
    cursor.execute(insert_sql)

if __name__ == '__main__':
    main()

在上述代码中:

  • 使用 chardet.detect(url_content)['encoding'] 检测编码。

  • 如果是 GBK,则使用 url_content.decode('gbk') 解码内容。

  • 然后,解析内容并将其保存到数据库。

  • 8
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值