文章目录
- 环境:Python 3.6 于 MacBook Air 10.13.6
- 本文围绕Tushare展开,不能作为标准爬虫材料来参考。
- 如果你不知道Token:Tushare股票分析【一】-- 接口token
- 我只想预测股票走势,为什么要获取关于股票的新闻?
不然你的预测会止于‘股票分析’,而不是真正的预测。 - 博主尝试过单纯地通过数据分析来预测股票,但是正确率都在45%到50%之间,如果要预测股票,正确率在55%以上才有可用价值!所以需要具体分析新闻来预测走向。
- 博主刚开始接触爬虫,有纰漏请见谅。
导入本次会用到的包
# -*- coding: utf-8 -*-
import tushare as ts
import re
Tushare自带新闻获取接口
无需Token的函数
弊端:无法导入过多
在Tushare中,自带3种无需Token也可以获取新闻的函数:
- ts.get_latest_news()
- ts.get_notices()
- ts.guba_sina()
在这里不一一展开,具体用法链接此处:http://www.waditu.cn/newsevent.html
需要Token的函数
弊端:积分不足
链接:https://tushare.pro/document/2?doc_id=143
Tushare官网查询
弊端:无法直接导入
网页:https://tushare.pro/news/news_10jqka?s=五粮液
但是可以发现,我们可以通过爬取Tushare官网的查询结果来获得我们想要的信息。
网页:https://tushare.pro/news/news_10jqka?s=五粮液
伪爬虫
以该网页为例:
https://tushare.pro/news/news_10jqka?s=五粮液
STEP 1. 网页源代码
我们需要获得网页源代码来方便我们之后的解析。
怎么获得源代码
-
除Safari外的浏览器可以通过按快捷键【Ctrl+U】打开源码页面,或者在在网页右键单击,找到检查。(不同浏览器的叫法不同,Chrome浏览器叫做检查,Firefox浏览器叫做查看元素,但是功能都是相同的)
ref:
1. Python爬虫入门教程:超级简单的Python爬虫教程
2. Python3网络爬虫快速入门实战解析 -
Mac电脑中的Safari可以用以下方法:
- 打开Safari浏览器中的偏好设置
- 在‘高级’中点击最下方的‘在菜单栏中显示‘开发’菜单’,就可以在菜单栏中找到‘开发’
- 打开‘开发’中的‘显示页面资源’,就可以看到网页的源代码啦