项目设计——留学导师项目查询引擎

Written by joezou(邹镇洪), 2019/3/22

近来酝酿的一个设想,原本设计用于新领域溯源查询,最近申请暑研的时候耗费了不少时间,感觉有相似之处,技术上已经比较成熟了,于是更加强烈的想着手把它落地实现。

一个idea:

  • 版本1:对特定领域论文和学者的自动分析
    • 查询领域X,如meta-learning,返回领域x(在检索数据库中,如google scholar)从起始至今的发展路线图、相应的代表文章及代表人物
  • 版本2:同领域导师、项目自动的自动分析和匹配
    • 查询领域y,在约束条件下(如指定日期、职位、地区),返回暑期学校、实习、相应老师、甚至奖学金申请的列表

由于两个版本的设计理念如出一辙,因此对更容易市场化的版本2进行阐述。

1) N (Need 需求)
目标用户:留学机构,留学生
中国其其他国家留学生的检索任务是一项固定需求,随着近年来我国留学生人数的快速增加,留学服务机构迅速发展,然而在选校选导师方面,由于留学机构并非全领域专业、学生和机构都未必尽心等人为原因,导致学生往往难以得到最优选择结果。此外,以往的查询往往基于数据库或人工手工查询,且不论这样的大型数据库是否存在,基于各院校机构单独上传的学术数据库难以同步更新(如教师人事调动、教师近期研究方向变化、新增项目的同步等),存在时间延迟,人工查询存在较大信息遗漏可能,因此基于机器学习的自动化查询方法无论是对于留学培训机构抑或学生个人而言都提供了极大的便利。

2) A (Approach 做法)
计划分三部分达成:

  1. 建立数据库
    建立完整的数据库是提高本产品实用性的核心条件,只有更新频率最高、覆盖最大范围院校和教师才能使产品具有竞争力。我们从各国政府数据库获取该国认证院校列表,并按院校留学热度逐一爬取各学院信息存在服务器。同理,各院校内部热度越高的部门被优先爬取,而且各院校、部门的信息更新频率也与热度成正相关。
    数据的访存问题随之浮现。首先需要考虑数据爆炸的问题,我们不可能存储所有时间的所有内容,因此更多情况下考虑,高频访问的数据存在本地,低频数据仅仅保存原网页快照或链接。而对于模型训练的数据,考虑分批训练,这部分数据无论低频高频均存在本地。
    还有一个问题是数据库的访问。我们考虑基于presto引擎进行优化,而底层和分布式架构什么的暂时应该不用考虑。
    最后是数据的格式化。由于个网页的布局、信息在网页间的调用都不同,我们需要预设目标提取信息,并要求模型自动识别信息存储到数据库中。由于院校机构极有可能更新网站,因此不可能人工手动逐一配置在不同网页上爬取的模式,这里涉及一点元学习。
    模型和数据库均在AWS服务器上部署,调用AWS机器学习api。

  2. 数据分析与查询
    这部分类似知识图谱搭建的过程。前序工作主要涉及文本信息抽取、自然语言理解,需要基于网站抽取的信息中理解该老师的方向与查询词条的相似度(由于一个方向可能有不同表述或子领域,因此我们希望该系统能对查询词条的子领域和相似领域都进行分析。对于已有领域,我们预先通过wiki字包训练同义词字典加快同义词查询速度,由于会不断出现数据库中未出现的词汇,因此需要基于google在线训练近义词)。
    比如查询了新领域meta-learning,则模型在google scholar中抽取top100的文章查询与meta-learning最相近的词条,预计训练时间在1分钟左右,但这种情况应比较少。
    后序工作涉及推荐系统,模型在数据库中查询到匹配信息后,需要按推荐序返回到用户,考虑协同过滤+冷门推荐的组合。

  3. 实景测试并逐步推向市场
    我们设计了3个主要的扩展功能:
  • 自动链接并整合教师相关网页。当用户或者教师、项目列表的同时,可以选择进一步查看信息。此时模型自动检索教师、项目高相关度的网页(google)进行分析并返回数据。这一步也可以直接添加到数据库的建立中,但可能大大增加模型的复杂度。
  • 用户评价。我们接纳用户的文字评价和打分,以及重要留学论坛上的问答词条,进行情感分析和数据纠正,并以此更新模型。
  • 可视化。我们将查询数据与申请、录取数据结合用户信息,实时分析用户的录取概率,由于数据难以获取,因此该项评估仅具有部分参考意义。但这项计划原本是用于中国高考报名会更好。

3) B (Benefit 好处)
为DIY的同学提供导师、项目检索引擎,大大减少了同学们先在各大排名榜单上检索院校,再逐个院校检索program和导师信息的时间。学生可以在此基础上利用网页进一步进行精准查询。
为院校、program和教师招生提供统一开放平台,便于学生比较,也可以进行精准推荐,提高双方match率。

4) C (Competitors 竞争)
经过初步查询,现在市场上应该是有类似的查询系统的,但都存在领域细分做得不够的问题,比如我查询细分领域"HPC",暂未发现可以支持这一分类等级的开放引擎。
后续补充

5) D (Delivery 交付, Data 数据)
后续补充

转载于:https://www.cnblogs.com/joezou/p/10579310.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值