有个需求需要在kafka里面得到json任务,然后解析出这个url的host,然后调用消重服务,判断这个host看看是否之前抓取过,如果没有抓取过就抓取页面解析出标题keyword等信息入hbase和写入kafka,如果之前抓取过,就直接入kafka,读的kafka里面每天生产2-3亿条数据,需要优化。首先要优化工作流程:1.根据数据的特点:url为空的就直接返回,已经知道的某个host很多,也可以直接写入kafka,不做后续操作,2.将串行改为并行:工作流程中的每个步骤:比如:读数据并host过滤消重等操作的步骤,下载的步骤,写kafka的步骤都可以做成多线程。
爬虫性能优化
最新推荐文章于 2023-11-17 14:30:00 发布