百度搜索中“鱼龙混杂”的加盟信息

二、整体设计


图片

整体流程上,我们可以看做是三个模块的串行:流量分析是一个离线模块,提供对近期搜索流量的拆解分析,指导后续内容生成的方向;内容生成模块通过对不同的生成需求,采用不同的方法产出对应的内容,最终数据模块将生成的数据进行质量校验、建库以及添加到检索逻辑中,进行最终的展现。

图片

系统实现上,分为离线部分和在线部分,离线部分包括流量分析、生成层和数据校验层;在线部分是基于业务逻辑对内容的展现,不作为本文的重点介绍内容。

  • 流量分析是离线模块的起点,针对搜索流量、日志记录信息等数据,借助 query 分析等服务,实现对当前流量的有效覆盖分析,进而指导生成模块的内容生成;

  • 生成层分为 AI 生成和定向生成,其中定向生成包括人工写作以及定向引流,主要适用于小批量、高精准的头部流量的覆盖,AI 创作包含四种不同的方法,是对不同内容生成需求的满足;

  • 数据校验层是对内容质量的把控,通过非法内容过滤、质量校验、重合度计算以及人工干预等手段,保证落库数据的质量,避免在检索结果上出现违规不合适的内容。

数据层是对生成的内容数据、用户的检索数据以及分析挖掘的结果数据进行存储,在数据层也需要完成对数据完整性的校验、建库和索引的生成;检索逻辑实现对自有内容和生成内容的检索,在该层能够实现对自有内容和生成内容的展现权重、顺序、PV 等的调整控制;最上层是对内容的展现,包括自建阿拉丁卡片、SEO 流量以及广告流量等。下面就主要流程的探索,分别展开描述。

2.1 流量分析模块

图片

检索日志:是通过行业流量判别模型,得到的一段时间(周或者月粒度)内用户的检索流量。其中包含我们已经覆盖的流量和未覆盖的流量,即属于行业流量但我们未能在任何一个渠道返回结果的流量,这部分流量是我们要提升覆盖的目标。

过滤:用户的输入可能包含了一些不合适的内容,例如暴力、黄色或者反动的信息,同时,在业务发展的不同阶段关注的流量重点也是不同的,因此需要我们对检索日志中包含负面情绪的流量以及不符合业务当前发展重心的流量剔除掉。

query分析:我们拿到用户输入的 query 后,需要理解用户的搜索需求是如何的,比如感兴趣的行业或品牌、投资水平、加盟意图的强度等,通过加盟星自建的 query 分析服务实现对 query 的意图、类型、层级、实体、价格、地域等信息的解析,产出对所有 query 的解析结果,助力后续的模块。

外部/竞品:指的是和业务同类型、同方向的外部业务网站,关注外部竞品信息,能够及时的了解自身业务的不足和行业的发展,我们在这里是关注外部竞品网站的内容覆盖情况。

覆盖分析:通过 query 分析模块对近期用户的检索需求的拆解,结合站内已有的物料以及展现情况,进行当前状态下的流量覆盖分析,同时将当前流量和外部竞品结合,分析外部竞品的覆盖情况,如果外部竞品覆盖情况优于目前站内,应该触发抓取模块,获取外部的内容原料并写库沉淀;否则直接将覆盖分析结果输出到下游。

抓取模块:当需要增加定向内容的时候,触发该模块来获取指定的外部/竞品内容,当做生成模块的输入信息。

2.2 内容生成模块

图片

我们通过对历史数据的分析,了解到当前站内对用户搜索需求的满足情况后,可以开始着手内容的生成。在该步骤中,整体流程可以看做是接受传入的生成需求,然后根据不用的生成内容需求调用不用的生成接口,产出对应的内容然后通过校验模块校验后,决定给是否重新生成还是可以落库。

图片

内容生成上,我们将其分为了人工和 AI 两种类型,其中人工定向生成内容主要是满足头部流量以及行程一种用户习惯和行业效应,AI 生成内容能够覆盖大多数的搜索流量,也是为了弥补人工定向生成中周期长、扩量慢等问题。

其中人工定向生成内容包括大咖说、加盟日志、创业者说、探店视频、轮播视频等内容,从文章到视频,形成对项目的全方位内容覆盖,也能够提升用户对加盟星内容覆盖维度的认知,产生积极的效应。但人工定向也存在比较严重的问题:速度慢、周期长、无法批量化等。这些问题的存在促进了我们去积极的探索 AI 创作内容的可行性。

图片

不同的用户具有不同的加盟需求,在加盟意图、强度或者方向(行业)上具有多样性,因此,我们定义了四种不同的生成方法:模板式、摘要式、改写式以及自由生成。不同的生成方法在准确度、覆盖面、目标流量、实现方式上存在差异,以满足用户不同场景下的搜索需求。

2.2.1 模板式生成

图片

通过对用户搜索流量的分析,对于加盟流程、加盟费用、加盟城市等具备固定答案的搜索需求,我们可以制定模板,以完形填空的方式将特定的项目(品牌)数据填充进去,形成针对用户搜索需求的内容覆盖。

在模板式生成的建设过程中,考虑到视频是当下比较受欢迎的内容形式,构建了基于模板的视频生成接口,能够根据传入的文本、图文,利用已有的模板自动生成对应的视频。其中音频的生成支持外部传入或者文本转音频,如果只有文本的情况下,会进行文本转图片的操作,当传入了图片的情况下,会根据音频的节拍调整图片的展示时长,展示 demo 如下:

图片

我们可以看出,这种方式利用了已有的信息生成特定格式的内容,足够迅速和准确,针对用户加盟流程、加盟优势、加盟费用等特定搜索需求,具有一定的满足性。但是,局限性也比较大,严重依赖项目数据的完备性。因此,一定程度上引入外部的有效数据是很有必要的,基于引入的外部数据,为了避免不必要的问题,我们建设以下的生成接口:摘要式生成和改写式生成。

自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。

深知大多数Java工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年Java开发全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上Java开发知识点,真正体系化!

由于文件比较大,这里只是将部分目录截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且会持续更新!

如果你觉得这些内容对你有帮助,可以扫码获取!!(备注Java获取)

img

写在最后

作为一名即将求职的程序员,面对一个可能跟近些年非常不同的 2019 年,你的就业机会和风口会出现在哪里?在这种新环境下,工作应该选择大厂还是小公司?已有几年工作经验的老兵,又应该如何保持和提升自身竞争力,转被动为主动?

就目前大环境来看,跳槽成功的难度比往年高很多。一个明显的感受:今年的面试,无论一面还是二面,都很考验Java程序员的技术功底。

最近我整理了一份复习用的面试题及面试高频的考点题及技术点梳理成一份“Java经典面试问题(含答案解析).pdf和一份网上搜集的“Java程序员面试笔试真题库.pdf”(实际上比预期多花了不少精力),包含分布式架构、高可扩展、高性能、高并发、Jvm性能调优、Spring,MyBatis,Nginx源码分析,Redis,ActiveMQ、Mycat、Netty、Kafka、Mysql、Zookeeper、Tomcat、Docker、Dubbo、Nginx等多个知识点高级进阶干货!

由于篇幅有限,为了方便大家观看,这里以图片的形式给大家展示部分的目录和答案截图!

Java经典面试问题(含答案解析)

阿里巴巴技术笔试心得

《一线大厂Java面试题解析+核心总结学习笔记+最新讲解视频+实战项目源码》点击传送门即可获取!

阿里巴巴技术笔试心得

[外链图片转存中…(img-bSDxvTfG-1712491771542)]

《一线大厂Java面试题解析+核心总结学习笔记+最新讲解视频+实战项目源码》点击传送门即可获取!

  • 7
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值