项目一:股票信息定向爬虫

本文介绍了一种利用Python网络爬虫技术抓取股票信息的方法。通过解析网页源代码,使用BeautifulSoup库定位并提取股票代码及详细信息。文章详细解释了getStockList()和getStockInfo()两个关键函数的工作原理。
摘要由CSDN通过智能技术生成

项目一:股票信息定向爬虫

标签(空格分隔): 爬虫

—BIT Python网络爬虫与信息提取 实例三

1.getStockList()函数分析

a = soup.find_all('a')
    for i in a:
        try:
            href = i.attrs['href']
            lst.append(re.findall(r"[s][hz]\d{6}",href)[0])
        except:
            continue
1. soup.find_all()函数返回类型为<class 'bs4.element.ResultSet'>,为标签集合的形式,所以循环语句中的i的类型即为<class 'bs4.element.Tag'>
2. i.attrs语句以字典形式返回标签i的属性,i.attrs['href']返回的是键为href的对应的值,本实例中返回的是保存有股票代码的网址,下面就可以进行正则匹配来得到股票代码
3. 注意语句re.findall(r"[s][hz]\d{6}",href)以列表形式返回所有的匹配项,本实例中虽然该列表中只有一项,但是仍要写成re.findall(r"[s][hz]\d{6}",href)[0]形式来提取出第一项,进而将其添加入新的列表,该列表存放的是所有的股票代码

2. getStockInfo()函数分析

soup = BeautifulSoup(html,'html.parser')
stockInfo = soup.find('div',attrs={'class':"stock-bets"})
name = stockInfo.find_all(attrs={'class':'bets-name'})[0]
infoDict.update({ "股票名称" : name.text.split()[0] })

keyList = stockInfo.find_all('dt')
valueList = stockInfo.find_all('dd')
for i in range(len(keyList)):
    key = keyList[i].text
    val = valueList[i].text
    infoDict[key] = val
1. 语句stockInfo.find_all(attrs={'class':'bets-name'})[0]把返回的标签集合转换为标签形式,而语句name.text.split()返回包含股票名称和其他信息的列表,股票名称保存在列表的第一项里
2. 股票的成交额成交量涨停等信息保存在'dt'标签里,相应的值保存在'dd'标签里
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值