一、系统的架构
1.搜索引擎系统的架构:
通常分为两部分:
一部分是离线系统。爬虫对原始网页的内容进行爬取,然后对爬取到的内容进行归类,贴标签等。最终把他们储存在服务器中。
一部分是在线系统。当用户输入关键词的时候,系统首页对关键词进行拓词和修正,然后从数据库中进行提取,提取出来以后根据不同的标准对内容进行评分,来决定内容的排序。
最终根据用户点击行为对内容施加不同的权重来决定新的排序。
2.推送系统的架构:
通常也分为两部分:
离线系统:通过用户提交、协议同步、数据库导入等多种方式获取待推荐的内容(对内容平台来说,内容的结构化要远胜于推荐引擎爬虫抓取的内容),依据推荐引擎对信息的不同理解维度对这些内容进行索引化处理(如话题、分类、实量词等),最终把处理好的数据储存在服务器中。
在线系统:用户行为画像--内容提取--内容排序--内容呈现--用户行为--优化迭代(完善用户行为画像--优化信息召回--优化用户使用体验)。
推荐和搜索最大的差异在于用户表