股票信息提取（静态网页）

最新推荐文章于 2023-11-17 09:45:00 发布

mo8808

最新推荐文章于 2023-11-17 09:45:00 发布

阅读量640

点赞数 1

CC 4.0 BY-SA版权

文章标签：爬虫

本文链接：https://blog.csdn.net/mo8808/article/details/101975563

import requests
from bs4 import BeautifulSoup
import re
slist=[]
headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36'}
link = 'https://hq.gucheng.com/gpdmylb.html'
r = requests.get(link, headers = headers)
r.encoding = r.apparent_encoding
soup = BeautifulSoup(r.text, 'lxml')


sock = soup.find_all('a')#得到所有a标签的一个列表，find_all返回的是列表

for i in range(len(sock)):
    try:
        name = sock[i].get('href') #attrs[]等同于sock[i].attrs['href'];属性皆为字典类型
        name = re.search(r"[S][HZ]\d{6}", name).group(0)#正则表达.group(0)获得匹配后的字符串
        name = name[2:9:]#字符串操作 获取2到9个字符
        slist.append(name)#存入列表
    except:
            continue

print (sorted(slist))