独家 | 基于新闻标题的股价走势分析(附链接)


作者:  Ronil Patil

翻译:王闯 (Chuck)

校对:詹好

本文约1900字,建议阅读5分钟

作者基于Kaggle上的新闻头条和股票指数数据集,用Python演示了如何利用NLP技术对新闻标题进行情感分析,从而预测股价走势。

标签:自然语言处理、情感分析、股价预测

本文曾作为数据科学博客松(https://datahack.analyticsvidhya.com/contest/data-science-blogathon-7/)的部分内容发表。

“不要在草堆里找一根藏针,而是要买下整个草堆!”

本次的主题与上述的引文有关,是一项对于股票市场的数据研究工作(译者注:引文是美国指数基金先驱John Bogle的名言,简述了指数型基金的概念,即与其花昂贵的费用请经理人从股市里大海捞针,不如用最简单的方法、最少的手续费,投资整个市场。)

本文介绍了基于自然语言处理(NLP)技术,如何创建一个利用新闻标题来分析股价的模型。具体而言,利用NLP来对新闻标题进行情感分析,从而预测股价涨跌。因此,本文的所有内容都是围绕如何用情感分析来预测股价展开的。

数据集介绍

 

这里我们使用了Kaggle数据集。你可以从这里(https://github.com/ronil068/Stock-Sentiment-Analysis)直接下载。该数据集是Kaggle上可用的世界新闻和股票价格的组合数据。数据框中包括其中25列分别对应每一天的25条TOP新闻,日期列(Date)和标签列(Label, 因变量特征)。数据范围是2008年至2016年,数据框2000年至2008年是从雅虎财经抓取的。标签基于道琼斯工业平均指数。

  • 标签为1–股价上涨。

  • 标签为0–股价持平或下跌。

开始

 

首先引入相关库
import pandas as pd
from sklearn.feature
  • 1
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值