“ 有幸参加某云商的金融行业知识图谱动手训练营,很好的一次对云平台、机器学习、知识图谱技术的深入体验,小伙伴们都很给力,收获满满的5天,累和困但好玩。”
11月4日至8日,我有幸和小伙伴们参加了某云商的机器学习和知识图谱技术动手训练营。我们团队用短短5天的时间,在数据类型有限的情况下,完成了最初步的产品。
该活动虽然是某云商的营销活动,让各参加的公司有机会沉浸式地体验他们的机器学习平台服务和知识图谱产品,但对于参与的公司成员,也是一次很好的动手机会。
活动包含两个周末对该平台和产品的培训,以及五天封闭的动手训练营。各家参与的公司要在五天时间,做出产品,并进行竞赛。
01
—
我们的产品
由于我们不能带公司的敏感数据参赛,手头上能采用的数据只有云商合作伙伴提供的数据,我们只能围绕着这些数据思考我们的业务场景,构思产品。
经过分析,这些数据包含了新闻、财经市场、股票、基金、板块等类别,我们构思了一个叫“新闻眼”的产品。
产品分训练和应用两个阶段。
在训练阶段,我们利用云商提供的新闻数据,通过情感分析筛选出负面新闻,然后通过NLP从新闻内容提取实体信息(如果公司名、股票名等)。这是机器学习的部分。通过云的机器学习平台完成。
利用云商提供的股票、基金数据,建立知识图谱(各种实体间的关系),保存在云的知识图谱数据库中。两者结合,形成了一个模型。
在应用阶段,产品持续爬取实时的新闻信息,通过模型进行处理。用户(基金经理)通过产品界面上传最新的基金持仓数据,产品通过API在知识图谱数据库通过Gremlin语言(一种对知识图谱数据库进行操作的语言,类似SQL之于关系型数据库)查询出基金的持仓股票是否有负面新闻相关联,如果有,则给出预警。
预警包括相应的新闻内容,相关的上市公司、股票和基金,以及可视化的图谱,让基金经理知道预警的根源,从而做出准确的决策判断。