香侬智能投研舆情项目:自主创新5个系统只为更准确的舆情分析 |百万人学AI评选

2020 无疑是特殊的一年,而 AI 在开年的这场”战疫“中表现出了惊人的力量。站在“新十年”的起点上,CSDN【百万人学AI】评选活动正式启动。本届评选活动在前两届的基础上再度升级,设立了「AI优秀案例奖Top 30」、「AI新锐公司奖Top 10」、「AI开源贡献奖Top 5」三大奖项。我们相信,榜样的力量将成为促进AI行业不断发展的重要基石,而CSDN将与这些榜样一起,助力AI时代的”新基建“。

活动官网:https://bss.csdn.net/m/topic/ai_selection/index

申报地址:http://csdnprogrammer.mikecrm.com/WpA03hJ

一、公司简介

香侬科技2017年12月注册成立于北京,主要技术领域为自然语言处理,2018年1月获得红杉投资的数千万人民币天使轮融资,2018年9月获得红杉资本领投的1.1亿元A轮融资。

创始人兼CEO李纪为,本科毕业于北京大学,博士就读于斯坦福大学,是该学院历史上用时最短的博士学位获得者。在全世界所有自然语言处理领域的学者中,顶级会议论文第一作者数量排名全球第一,同时也是论文引用量最多的学者之一。创业前,先后在微软研究院 (MSR),Facebook人工智能实验室(FAIR)从事研究工作。近两年先后荣获《福布斯》“30位30岁以下精英”,《麻省理工科技评论》“35岁以下科技创新35人”,《财富》“40位40岁以下商界精英”,“中国青年科技创业者30人”,“中国海归科技创业者100人”等十余个奖项,并受聘担任清华大学互联网产业研究院研究员,智源人工智能研究院青年科学家等职务 。

目前主要将人工智能技术应用于金融领域,提供全球资本市场信息智能服务以及智能投研舆情项目服务,致力于为金融行业从业者提高信息获取能力、基础数据支持及智能技术服务,以便让相关从业者可以及时掌握、了解行业、企业动态,为金融资产管理、风控评级、行业研究、投资决策等各类金融业务赋能。

 

二、案例详情

产品详情

为更好满足客户对智能投研舆情项目实时性和准确性的需求, 香侬科技在以下5个系统中进行了技术的自主研发和创新。分别为: 

  1. 信息采集系统
  2. 金融实体识别子系统
  3. 舆情分类子系统
  4. 舆情事件子系统
  5. 舆情信息摘要

自创数据采集系统——雷霆,雷霆的优势在于可以构建任意规模和任意目的的爬虫,实现了URL边界理论,这个理论可以帮助解决“何时抓取下一个URL”,“下个抓取的URL是什么”,“检查抓取结果”等问题。除了信息采集之外,针对响应每5min的刷新频率,香侬科技采用了流式处理的方式,以及通过Solr构建Hbase的二级索引,加快查询速度。

香侬科技依据行业需求创新开发了针对金融领域的实体识别系统。实体识别系统由四部分组成:定制化细粒度实体识别,实体指代消歧,数据库实体链接,领域知识图谱。通过对金融文本进行信息抽取,能够扩展可用的信息,帮助提高舆情系统的整体表现。

在命名实体识别中,我们将香侬科技于2019年提出的基于中文字型的深度学习模型Glyce和谷歌于2018年提出的预训练双向句子表示编码器BERT结合起来,并且将Glyce-BERT引入到命名实体识别模块中去。Glyce-BERT模型的引入提高了命名实体识别模型的准确率,并且增强了线上识别模块的鲁棒性。

对于实体指代消歧我们提出了基于注意力机制的指代消解模型。模型主要采用了自注意力机制对文本中重要的上下文进行建模。

在数据库实体链接中,我们结合线上舆情系统的实际需求和计算机的相关技术,研发了数据库实体链接模块。1. 采用了动态更新的数据库作为外部的数据库。2. 研发了领域内新词发现工具。3.采用深度学习的分类模型对文章中出现的命名实体和知识库中的候选实体进行链接预测。

在舆情信息摘要中,提出基于问答模型的关键词摘要抽取技术,利用问答模型精准定位关键词的起始位置,从而给用户呈现最关键的信息。

 

技术投入2000万

 

三、典型应用场景

智能投研舆情项目,之所以做这个产品,是因为除了一级市场和二级市场公开的信息外,目前市场上跟金融相关的第三类渠道数据量越来越多,这些信息在一定程度上影响了投资决策但又不属于市场统计范围之内的数据,是智能投研、金融舆情的原材料,但以新闻舆情、财经资讯报道、自媒体言论等为代表的第三类渠道信息很多并没有被相关领域的从业者重视。香侬科技认为,智能投研所揭示的规律实际上是一种“变量间的相关关系”,而不是准确的因果关系,所以对于信息关系的掌握度越完善,越能有效的把控投资决策的走向。

因此,香侬科技内部专业金融业务专家在充分了解金融市场运行和客户需求的基础上,结合技术对于所有的第三类数据进行了处理。他们会从海量新闻中识别出对应公司,同时运用自然语言处理技术自动识别出行业标签和事件标签,目前香侬梳理出了将近 200 个公司事件标签,基本上涵盖了所有重要的金融事件,比如生产情况、供给情况、并购情况等,通过打上这些事件标签,可以迅速的帮助投资者了解新闻内容,同时用于新闻筛选、风控和投资。

展开阅读全文

150讲轻松搞定Python网络爬虫

05-16
【为什么学爬虫?】        1、爬虫入手容易,但是深入较难,如何写出高效率的爬虫,如何写出灵活性高可扩展的爬虫都是一项技术活。另外在爬虫过程中,经常容易遇到被反爬虫,比如字体反爬、IP识别、验证码等,如何层层攻克难点拿到想要的数据,这门课程,你都能学到!        2、如果是作为一个其他行业的开发者,比如app开发,web开发,学习爬虫能让你加强对技术的认知,能够开发出加安全的软件和网站 【课程设计】 一个完整的爬虫程序,无论大小,总体来说可以分成三个步骤,分别是: 网络请求:模拟浏览器的行为从网上抓取数据。 数据解析:将请求下来的数据进行过滤,提取我们想要的数据。 数据存储:将提取到的数据存储到硬盘或者内存中。比如用mysql数据库或者redis等。 那么本课程也是按照这几个步骤循序渐进的进行讲解,带领学生完整的掌握每个步骤的技术。另外,因为爬虫的多样性,在爬取的过程中可能会发生被反爬、效率低下等。因此我们又增加了两个章节用来提高爬虫程序的灵活性,分别是: 爬虫进阶:包括IP代理,多线程爬虫,图形验证码识别、JS加密解密、动态网页爬虫、字体反爬识别等。 Scrapy和分布式爬虫:Scrapy框架、Scrapy-redis组件、分布式爬虫等。 通过爬虫进阶的知识点我们能应付大量的反爬网站,而Scrapy框架作为一个专业的爬虫框架,使用他可以快速提高我们编写爬虫程序的效率和速度。另外如果一台机器不能满足你的需求,我们可以用分布式爬虫让多台机器帮助你快速爬取数据。   从基础爬虫到商业化应用爬虫,本套课程满足您的所有需求! 【课程服务】 专属付费社群+每周三讨论会+1v1答疑
©️2020 CSDN 皮肤主题: 数字20 设计师: CSDN官方博客 返回首页
实付0元
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值