python如何爬虫股票数据_如何抓取股票数据_用Python抓取新浪的股票数据

本文介绍了作者在Python爬虫学习过程中的经验,分享了如何抓取证券之星和新浪财经的股票数据。文章提到Tushare数据源的不足,并指出新浪数据速度更快且更丰富,包括所有上市以来的数据。作者还讨论了网页解析技术,如正则表达式和XPath,并强调在爬虫过程中要注意礼貌,避免对目标网站造成过大压力。
摘要由CSDN通过智能技术生成

python爬虫成长之路(一)抓取证券之星的股票数据

其中编译匹配模式findall方法使用这个匹配模式来匹配所需的信息并以列表的形式返回。正则表达式的语法非常多。下面我只列出使用的符号的含义。匹配除换行字符“\n”*以外的任何字符?匹配前一个字符0次还是无限次?内容正则表达式的语法相当多。也许只有一个正则表达式可以提取我想要提取的内容。在提取股票主体部分的代码时,发现有人使用xpath表达式来提取它。它看起来更简洁。似乎页面解析还有很长的路要走。第三,对通过非贪婪模型(。*?)匹配>和stock_last=stock_total[:]#stock_total:匹配的股票数据fordatainstock_total:#stock_last:已排序的股票数据ifdata=='':stock_last。

金融分析软件包,但后来我发现,使用几天后,它的日常交易历史数据有时并不准确。查看源代码,发现此包的数据源为PhoenixFinance。网站数据本身是不同的,所以对Tushare来说不是问题。所以百度发现很多网民获取了新浪的股票数据,包括新浪的历史数据和实时数据。所以我试了一下,发现速度很快。我并没有专门测量时间,但是比Tushare得到的Phoenix的数据要快很多。而且数据也非常丰富,包括每张票自上市以来的所有数据。似乎Tushare只有三年的数据。当然,新浪的数据也不够。细节并不像凤凰的数据那样丰富。MA5,MA10没有价格,MA5,MA10的数量等等。幸运的是,我需要计算的数据不包括每天的交易金额。新浪金融的数据接口地址为:在地址中,符号表示股票代码。需要注意的是,您不仅需要填写数字代码,还需要添加交易市场的前缀。例如,sz000001为平安银行,

python爬虫成长之路(一)抓取证券之星的股票数据

这样服务器就无法找出谁是真正的凶手。这个技能还没有完成。为了以后,请大家下次再听。会向浏览器发送一个cookie文件,然后使用cookie跟踪您的访问。为了防止服务器识别出你是一个爬虫,最好带一个cookie在一起。去抓取数据;如果你遇到一个网站,你想要模拟登录,以防止你的帐户被黑,你可以申请大量的帐户,然后爬到这里。所以在我们强行进入之后,我们也要注意一些礼仪,以免把他们的网站搞垮。2。获取了网页的源代码后,我们可以从中提取我们需要的数据。从源代码获取所需信息的方法有很多。正则表达式是比较经典的方法之一。让我们首先看看收集的web页面的一些源代码。excepturllib。errorurlopen(请求)。打印('page='page'e。reason)内容=响应。read()。)stock_page=re。findall(patternbody[0])#常规匹配stock_total。

python爬虫成长之路(一)抓取证券之星的股票数据

fordatainstock_total:ifdata=='':stock_last。删除(')#打印一些结果打印('code'''\t''缩写'''''\t'''最新价格''\t''涨跌''\t''涨跌量''\t''5分钟上涨'')foriinrange(0原来的网页有13列数据,步长是13print(stock_last[i]'\t'stock_last[i+1]''\t'stock_last[i+2]''\t'stock_last[i+3]''\t'stock_last[i+4]''\t'stock_last[i+5])

python爬虫成长之路(一)抓取证券之星的股票数据

请求(url=urlheaders={'User-Agent':random。excepturllib。errorurlopen(请求)。HTTPErrorase:#异常检测打印('page='page'e。excepturllib。error代码)。打印('page='page'e。read()。***********************************************************************************************************************************?)Stock_page=re。findall(patternbody[0])#常规匹配stock_total。睡眠(随机的。#每一页随机睡几秒钟。值可以根据实际情况改变。删除空字符stock_last=stock_total[:]#stock_last是要获取的最终股票数据。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值