最近一直在搞爬虫相关的工作,现在在考虑抓取回来的原始网页存储问题 找了一些资料,也参考了天网的存储格式,现在头绪没有理清楚,该以怎样的结构存储对后期的再加工和查询等提高效率,希望做搜索的朋友一起讨论,哪里不对请指教