Abstract:
笔者想从天天基金网(http://fund.eastmoney.com/f10/jjjz_001631.html)爬取某只基金的历史净值进行数据分析,发现天天基金网使用的是JavaScript,其历史净值表格使用的Ajax技术,只采用BeautifulSoup无法进行爬取。最后笔者通过selenium模拟表格“下一页”按钮的点击,然后采用BeautifulSoup解析selenium加载后的页面。
图1 天天基金网Ajax表格
Code:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from bs4 import BeautifulSoup
import re
import time
# 点击下一页次数
len = 34
# 打开TXT文件
f = open("D:/abc.txt", "w",encoding="UTF-8")
# 设置selenium驱动
# driver = webdriver.Chrome("./chromedriver.exe")
driver = webdriver.Phant