项目一：股票信息定向爬虫

最新推荐文章于 2023-07-22 09:44:39 发布

bandaye3

最新推荐文章于 2023-07-22 09:44:39 发布

阅读量871

点赞数 1

分类专栏： WebCrawler 文章标签：爬虫 python

本文链接：https://blog.csdn.net/bandaye3/article/details/74079767

版权

WebCrawler 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文介绍了一种利用Python网络爬虫技术抓取股票信息的方法。通过解析网页源代码，使用BeautifulSoup库定位并提取股票代码及详细信息。文章详细解释了getStockList()和getStockInfo()两个关键函数的工作原理。

摘要由CSDN通过智能技术生成

项目一：股票信息定向爬虫

标签（空格分隔）：爬虫

—BIT Python网络爬虫与信息提取实例三

1.getStockList()函数分析

a = soup.find_all('a')
    for i in a:
        try:
            href = i.attrs['href']
            lst.append(re.findall(r"[s][hz]\d{6}",href)[0])
        except:
            continue

1. `soup.find_all()`函数返回类型为`<class 'bs4.element.ResultSet'>`，为标签集合的形式，所以循环语句中的`i`的类型即为`<class 'bs4.element.Tag'>`

2. `i.attrs`语句以字典形式返回标签`i`的属性，`i.attrs['href']`返回的是键为`href`的对应的值，本实例中返回的是保存有股票代码的网址，下面就可以进行正则匹配来得到股票代码

3. 注意语句`re.findall(r"[s][hz]\d{6}",href)`以列表形式返回所有的匹配项，本实例中虽然该列表中只有一项，但是仍要写成`re.findall(r"[s][hz]\d{6}",href)[0]`形式来提取出第一项，进而将其添加入新的列表，该列表存放的是所有的股票代码

2. getStockInfo()函数分析

soup = BeautifulSoup(html,'html.parser')
stockInfo = soup.find('div',attrs={'class':"stock-bets"})
name = stockInfo.find_all(attrs={'class':'bets-name'})[0]
infoDict.update({ "股票名称" : name.text.split()[0] })

keyList = stockInfo.find_all('dt')
valueList = stockInfo.find_all('dd')
for i in range(len(keyList)):
    key = keyList[i].text
    val = valueList[i].text
    infoDict[key] = val

1. 语句`stockInfo.find_all(attrs={'class':'bets-name'})[0]`把返回的标签集合转换为标签形式，而语句`name.text.split()`返回包含股票名称和其他信息的列表，股票名称保存在列表的第一项里

2. 股票的成交额成交量涨停等信息保存在`'dt'`标签里，相应的值保存在`'dd'`标签里

bandaye3

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

项目一：股票信息定向爬虫

项目一：股票信息定向爬虫

1.getStockList()函数分析

1. soup.find_all()函数返回类型为<class 'bs4.element.ResultSet'>，为标签集合的形式，所以循环语句中的i的类型即为<class 'bs4.element.Tag'>

2. i.attrs语句以字典形式返回标签i的属性，i.attrs['href']返回的是键为href的对应的值，本实例中返回的是保存有股票代码的网址，下面就可以进行正则匹配来得到股票代码

3. 注意语句re.findall(r"[s][hz]\d{6}",href)以列表形式返回所有的匹配项，本实例中虽然该列表中只有一项，但是仍要写成re.findall(r"[s][hz]\d{6}",href)[0]形式来提取出第一项，进而将其添加入新的列表，该列表存放的是所有的股票代码

2. getStockInfo()函数分析

1. 语句stockInfo.find_all(attrs={'class':'bets-name'})[0]把返回的标签集合转换为标签形式，而语句name.text.split()返回包含股票名称和其他信息的列表，股票名称保存在列表的第一项里

2. 股票的成交额成交量涨停等信息保存在'dt'标签里，相应的值保存在'dd'标签里

1. `soup.find_all()`函数返回类型为`<class 'bs4.element.ResultSet'>`，为标签集合的形式，所以循环语句中的`i`的类型即为`<class 'bs4.element.Tag'>`

2. `i.attrs`语句以字典形式返回标签`i`的属性，`i.attrs['href']`返回的是键为`href`的对应的值，本实例中返回的是保存有股票代码的网址，下面就可以进行正则匹配来得到股票代码

3. 注意语句`re.findall(r"[s][hz]\d{6}",href)`以列表形式返回所有的匹配项，本实例中虽然该列表中只有一项，但是仍要写成`re.findall(r"[s][hz]\d{6}",href)[0]`形式来提取出第一项，进而将其添加入新的列表，该列表存放的是所有的股票代码

1. 语句`stockInfo.find_all(attrs={'class':'bets-name'})[0]`把返回的标签集合转换为标签形式，而语句`name.text.split()`返回包含股票名称和其他信息的列表，股票名称保存在列表的第一项里

2. 股票的成交额成交量涨停等信息保存在`'dt'`标签里，相应的值保存在`'dd'`标签里