python中正则表达式匹配中文是没有问题的,但是其中有一个关键点,那就是pattern中的中文编码必须和要匹配字符串保持一致;下面使用一个例子来说明:
# -*- coding: utf-8 -*-
'''
test.html内容为 :
<div id='author_' >作 者: (美)埃克尔 著,陈昊鹏 译</div>
<div id='publisher_'>出 版 社: 机械工业出版社</div>
<ul >
<li>出版时间: 2007-6-1</li>
<li>字 数: </li>
<li>版 次: 1</li>
<li>页 数: 880</li>
<li>印刷时间: 2007-6-1</li>
<li>开 本: </li>
<li>印 次: </li>
<li>纸 张: