使用Python爬虫获取上交所和深交所所有股票的名称和交易信息
功能描述
目标
获取上交所和深交所所有股票的名称和交易信息
输出
保存到文件中
技术路线
requests-bs4-re
候选数据网站的选择``
网易财经:https://money.163.com/stock/
新浪股票:http://finance.sina.com.cn/stock
选取原则
股票信息静态存在HTML页面中,非js代码生成,没有robots协议限制
选取方法
浏览器F12,源代码查看等
程序的结构设计
步骤1:
从网易财经获取股票列表
步骤2:
根据股票列表逐个到网易财经获取个股信息
步骤3:
将结果存储到文件
import re
import requests
from bs4 import BeautifulSoup
codepath = 'code.txt'
def gethtml(url):
try:
headers = {'User-Agent': 'Mozilla/5.0'}
r = requests.get(url, headers=headers)
r.r