<rss version="2.0" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:trackback="http://madskills.com/public/xml/rss/module/trackback/" xmlns:wfw="http://wellformedweb.org/CommentAPI/" xmlns:slash="http://purl.org/rss/1.0/modules/slash/"><channel><title>赖勇浩（恋花蝶）的博客 - DataMining</title><link>http://blog.csdn.net/lanphaday/category/328650.aspx</link><description /><dc:language>zh-CN</dc:language><lastUpdateTime>Tue, 01 Apr 2008 17:21:06 GMT</lastUpdateTime><ttl>60</ttl><item><dc:creator>赖勇浩</dc:creator><title>从HTML文件中抽取正文的简单方案</title><link>http://blog.csdn.net/lanphaday/archive/2007/08/13/1741185.aspx</link><pubDate>Mon, 13 Aug 2007 19:09:00 GMT</pubDate><guid>http://blog.csdn.net/lanphaday/archive/2007/08/13/1741185.aspx</guid><wfw:comment>http://blog.csdn.net/lanphaday/comments/1741185.aspx</wfw:comment><comments>http://blog.csdn.net/lanphaday/archive/2007/08/13/1741185.aspx#Feedback</comments><slash:comments>10</slash:comments><wfw:commentRss>http://blog.csdn.net/lanphaday/comments/commentRss/1741185.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1741185</trackback:ping><description>这篇文章主要介绍了从不同类型的HTML文件中抽取出真正有用的正文内容的一种有广泛适应性的方法。其功能类似于CSDN近期推出的“剪影”，能够去除页眉、页脚和侧边栏的无关内容，非常实用。其方法简单有效而又出乎意料，看完后难免大呼原来还可以这样！行文简明易懂，虽然应用了人工神经网络这样的算法，但因为FANN良好的封装性，并不要求读者需要懂得ANN。全文示例以Python代码写成，可读性更佳，具有科普气息，值得一读。&lt;img src ="http://blog.csdn.net/lanphaday/aggbug/1741185.aspx" width = "1" height = "1" /&gt;</description></item></channel></rss>