使用webmagic爬取引用标准文献的新闻 目录目录 任务 总体思路 使用百度搜索 筛选搜索结果 新闻URL的转换 储存新闻 标准引用的统计工作 代码实现 运行流程 两个爬虫的结构 BaiduForEachCrawler Downloader Scheduler PageProcessor Pipeline BaiduURLConverter Downloader Scheduler PageProcessor PipeLine 新闻去重与统