2018年招商银行FinTech精英训练营复赛

最新推荐文章于 2022-06-24 15:58:28 发布

VIP文章 #叫啥名字呢

最新推荐文章于 2022-06-24 15:58:28 发布

阅读量5.3k

点赞数 1

分类专栏： NLP 文章标签：文本相似度 tfidf 余弦

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40411446/article/details/80344017

版权

过了初赛就可以参加复赛，我初赛200+名（及格上榜的好像就400多人，具体名次我也不记得了），招行5.20给发了99.9的红包，很大方了~~~

赛题背景

财经新闻作为重要却海量的投资数据，无时无刻不在影响着投资者们的投资决策，为了更好地提示客户当下新闻事件对应的投资机会和投资风险，本课以研发“历史事件连连看”为目的，旨在根据当前新闻内容从历史事件中搜索出相似新闻报道，后期可以结合事件与行情，辅助客户采取相应投资策略。

该赛题是让参赛者为每一条测试集数据寻找其最相似的TOP 20条新闻，我们会根据参赛者提交的结果和实际的数据进行对比，采用mAP值作为评价指标。

具体实现

该题是一道文本相似度的题目，（我想也可以理解看成聚类啊，分类，具体如何操作我尚未试验）

讲一个小思路：

获取数据（读取中文文本）-->分词-->数据清洗（去掉停用词）-->计算tfidf--构建词袋模型转换为向量-->计算余弦相似度-->获取最相似的20条

额，这是一个baseline 的思路，比赛官方的结果还没有给出，我就先贴上自己baseline 的代码吧，其实还有很多要优化的地方，比如L:tfidf并不适合短文本，这样关键词提取上会出问题；另外VSM模型并不是计算相似性的最佳模型，个人见解，欢迎讨论.

科普一下：

常见的距离度量方法：

（1）欧式距离（2）Pea

最低0.47元/天解锁文章

#叫啥名字呢

关注

1
点赞
踩
12

收藏

觉得还不错? 一键收藏
3
评论
2018年招商银行FinTech精英训练营复赛

过了初赛就可以参加复赛，我初赛200+名（及格上榜的好像就400多人，具体名次我也不记得了），招行5.20给发了99.9的红包，很大方了~~~赛题背景财经新闻作为重要却海量的投资数据，无时无刻不在影响着投资者们的投资决策，为了更好地提示客户当下新闻事件对应的投资机会和投资风险，本课以研发“历史事件连连看”为目的，旨在根据当前新闻内容从历史事件中搜索出相似新闻报道，后期可以结合事件与...
复制链接

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。