这篇文章我们来说一下怎样利用python爬取财经网站的新闻,我们大家都知道:现在是信息爆炸的社会,怎样有效快速的获取关键信息是十分重要的,那么通过借助强大的python,我们是能够实现这一目标的。我们在量化过程中,一部分我们需要从基本面来分析行情,那么此时借助财经网站给我们提供的大量信息,我们可以让程序自动获取这些信息,并且帮我们进行整理分析(下一篇我们将讨论一下是怎么处理的)然后再根据处理的结果,最终做出决策。这个过程也是我们对信息的有效处理分析和应用。处理的信息以及应用的方法,会影响处理的结果进而也影响决策。因此我们需要一个较为准确的数据源以及合理的数据处理的方法是十分重要的。
下面我们就介绍一下怎么用python获取财经网的信息。
1.安装库文件
首先我们选择获取信息的网站是:https://finance.sina.com.cn/stock/,这个网站提供的财经类的新闻是十分全面的,并且更新的比较及时。我们当然可以选择其它财经网站,比如新浪财经等。那么选择了网站后就要获取网站的链接,将链接中的新闻内容存放到文本里。
再此之前我们先要对这个网页进行分析下:具体方法如下:
1)右键—查看元素–我们可以在调试程序中看到新闻的所有链接前面的关键字为href(这对于我们后续的抓取新闻是很重要的)
2)我们需要安装获取新闻信息的安装包:
import jieba.analyse
这个安装包是分词的安装包,我们需要将新闻信息导出后,需要分词处理时应用它。
import urllib.request
这个包中包含链接网站的方法,是获取新闻网站的第一步。
2.python获取新闻代码
python获取新闻我们大致的步骤可分为:
将文章标题存入列表框——将文章链接存入list——通过循环换取所有网页的链接和链接里的内容——将内容存放到txt文件中。
主函数如下所示:
def getnews(self):