在数据挖掘与推荐系统中,经常需要对许多非结构化的信息进行处理,其中一个很重要的工作就是信息抽取,本篇就中文信息提取的相关资料做一个简单列表。 全文和文章元数据抽取开源Python库:newspaper Python-goose:用于文章提取的Python库 IEPY 总结Python正文提取的工具包 BoilerPipe —— Java开发者的文章提取工具