- 博客(1)
- 收藏
- 关注
原创 从HTML文件中抽取正文的简单方案
导读: 译 者导读:这篇文章主要介绍了从不同类型的HTML文件中抽取出真正有用的正文内容的一种有广泛适应性的方法。其功能类似于CSDN近期推出的“剪影”,能 够去除页眉、页脚和侧边栏的无关内容,非常实用。其方法简单有效而又出乎意料,看完后难免大呼原来还可以这样!行文简明易懂,虽然应用了人工神经网络这样 的算法,但因为FANN良好的封装性,并不要求读者需要懂得ANN。全文示例以Python代码写成,
2007-10-08 13:27:00 239
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人