修改后的HTML2TXT代码,及在C++下使用NLPIR系统进行分词
上次把HTML的内容提取了出来,但代码还有一些问题,今天上午进行了一些修改,并添加了注释,并上传GITHUB总结的时候可以整理自己学习到的东西,并理清思路。from bs4 import BeautifulSoupimport codecsimport osimport sys############################# 输入地址path,输出地址pathT
原创
2015-05-26 15:15:23 ·
356 阅读 ·
0 评论