功能描述
目标:获取上交所和深交所所有股票的名称和交易信息
输出:保存到文件中
技术路线:requests-bs4-re
候选数据网站的选择
新浪股票:http://finance.sina.com.cn/stock/
百度股票:http://gupiao.baidu.com/stock/
东方财富网:http://quote.eastmoney.com/stocklist.html
-
选取原则:
股票信息静态存在于HTML页面中,非js代码生成,没有Robots协议限制 -
选取方法:
浏览器F12,源代码查看等
程序的结构设计
import requests
from bs4 import BeautifulSoup
import traceback
import re
def getHTMLText(url,code = 'utf-8'):
try:
r = requests.get(url,timeout=30)
r.raise_for_status()
r.encoding = code
return r.text
except:
return ""