项目背景:
通过爬取全部的上交所和深交所的代码列表,然后根据个股列表查到每一个个股的交易信息,如成交额,最高,最低,市盈率等等;
首先就是爬取一个包含全部股票代码的列表,包含信息如:SH209088,SZ910001…股票列表是通过东方财富获取的,网站如下:http://quote.eastmoney.com/stock_list.html#sh,但是因为东方财富网没有个股交易信息,所以第二步我们要通过循环列表,把每一个个股代码传入另外一个可以查到个股交易的网站,个股信息是通过雪球网获取的(其它网站也可以),网站如下:https://xueqiu.com/S/SH600519,根据个股代码查找其对应的个股交易信息,注意,可能存在的情况,在东方财富网获取的个股可能不存在雪球网,这里记得加上if-continue条件,代码如下:
import re
import requests
from bs4 import BeautifulSoup
import traceback #用来跟踪异常返回信息
import pandas as pd
def gethtml(url):
try:
head = {
'User-Agent':'Mozilla/5.0'}
r = requests.get(url,headers=head,timeout=30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return