使用lxml即可。
安装方法,下载exe,直接安装。
lxml-3.2.4.win-amd64-py2.7
http://download.csdn.net/detail/lijin6249/9601607
上代码:
import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )
path = "1.html"
content = open(path,"rb").read()
page = html.document_fromstring(content)
text = page.text_content()
print text.encode('gbk', 'ignore')
注意转码问题。