python 学习 爬取证券之星的股票信息

python 学习 爬取证券之星的股票信息
选择原因,数据好获取,便于操作!

第一步,找到股票相关的信息,先去东方财富网,找到股票的代码查询一览表网站
![在这里插入图片描述](https://img-blog.csdnimg.cn/20190914212532135.png在这里插入图片描述
在这里,我们能找到所以的股票信息,比如名称,代号等等!!
然后,我们来到证券之星网站,随便找一只股,
在这我里插入图片描述
我们发现,所有的股票的url 都是以 ‘https://stock.quote.stockstar.com/’+ 股票代码+ ".shtml"的形式构成,因此,我们只需要在东方财富网中找到所有的股票代码,并获取到哟个列表中,后面再通过遍历就可以将所有的股票网页获取到,因此,我们先建立主函数,获取所有的股票代码!!!

    #该爬虫是针对 证券之星这个网站爬取数据的
    #该爬虫分为四个函数,一个主函数(main),三个作用函数!
    #注意,少用[''' ''']这样的方式注释,会出现bug---->except an indented block
    #导入库
    import requests
    from bs4 import BeautifulSoup
    import traceback
    import re
     
    def getHTMLText(url, code="utf-8"):
    

#该函数是获取网页的函数,主要负责获取每次改变之后的网页数据
#该函数是一个爬虫模板

    try:
          head={}
          head['User-Agent']='Mozilla/5.0'
          #伪装,比较简单
          r = requests.get(url,headers=head,timeout = 30)
          #r只是一个单纯的返回,无实质数据,r.text中才是
          #print(url)
          #print(r.status_code)
          #判断是否成功获取网页

          r.encoding = code   #减少时间,优化,不算很懂
          return r.text             #返回爬取网页中的数据
    except:
        return ""
 
def getStockList(lst, stockURL):

在这里插入图片描述
在东方财富网的网页源代码中,我们发现如上图
因此,我们可以BeautifulSoup中的find_all()找到我们需要的数据

  #在东方财富网网页源代码中,我们发现,股票信息都存储在a标签下,所以,我们用
    #filename.find_all()函数,将a标签下的信息都保存在a列表下
      #首先,这个是爬取东方财富网的股票信息的函数
            #但其实很多网页与此类似
      html = getHTMLText(stockURL,"GB2312")
            #获取网页链接和和他的编码方式!自己去网站查的,不同网站不同
            soup = BeautifulSoup(html, 'html.parser')
            #对网页进行解析,可以用soup.prettify()将网页规则化,整齐化,如下
            soup.prettify()
            a = soup.find_all
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值