我的处理路径:
word->html(用ueditor.baidu.com)
html->beautifulsoup
美丽的汤是用来做html解析用的,使用了lxml(这个处理中文会好些)。
在windows下处理吧,不要linux倒来倒去的(中文文档表示受不了)
肿么办?
pip安装参考下面,
lxml安装使用
https://pypi.python.org/pypi/lxml/3.5.0#downloads
的安装包完成,但是注意,这个只支持到python3.2
问题处理:
lxml安装需要,主要需要预先安装vs2010,否则会叫
error: Microsoft Visual C++ 10.0 is required (Unable to find vcvarsall.bat).
装了vs2010发现不行,使用
easy_install lxml
按道理都应该成功,结果这两个都报告失败。
失败原因是找不到依赖(libxml2?FIXME)
参考:
1 http://www.tuicool.com/articles/eiM3Er3
介绍如何pip install ..
2 介绍如何使用easy_install
http://blog.csdn.net/zhaokuo719/article/details/8209496