学习了爬虫基础、编码、正则表达式、selenium库之后,就可以正式进行我们的爬取了
一、爬取研报链接
# -*- coding:utf-8 -*-
import time
from selenium import webdriver#selenium库需要环境配置
import pandas as pd
date=[]
rating=[]
rating_change=[]
institution_name=[]
report_url=[]
driver=webdriver.Firefox()#模拟浏览器进行访问
driver.get("http://data.eastmoney.com/report/465yb_1.html#pageAnchor")#动态页面
def scrapy():
for i in range(1,2):
def get_data():
date1=driver.find_elements_by_xpath("//div[@id='dt_1']//li[@class='date']")
#通过xpath语法来爬取标签名[@属性名=""]
#//代表之前为任意值
for i in date1:
date2=i.text#获取文本内容
date.append(date2)
time.sleep(2)#暂停一下,要不然会被封
def get_institution():
institution_name1=driver.find_elements_by_xpath("//div[@id='dt_1']//li[@cl