爬虫笔记——东方财富科创板数据爬取（selenium方法）

最新推荐文章于 2024-05-08 14:08:50 发布

wang_zuel

最新推荐文章于 2024-05-08 14:08:50 发布

阅读量3.7k

点赞数 3

分类专栏： python爬虫笔记文章标签：爬虫东方财富科创板数据

本文链接：https://blog.csdn.net/wang_zuel/article/details/96597719

版权

爬虫笔记——东方财富科创板数据爬取（selenium方法）

网站观察
网站分析
- 公司详情页面
具体代码

selenium方式爬取
优点：无需观察网站去查找数据来源
缺点：速度较requests方法更慢

网站观察

网址：东方财富科创板数据

===========================================================
网站描述

===========================================================

网站分析

可以发现，由于在网页中存在多个公司，且网站代码中对每个标签的区分度并不高，所以直接在该网页中爬取比较复杂，所以这里选择先爬取每个公司的详情介绍的链接（href属性中每个公司都有一个对应的code编号），然后在每个公司的详情链接网站中爬取想要的信息。
网页分析

===========================================================

公司详情页面

公司详情链接的页面如下：
公司详情页面

===========================================================
可以发现网站也是动态加载的，那么可以采取selenium或者requests的方式爬取数据，其中selenium方式不需要去查找动态加载部分，直接爬取就行，但是由于每次需要访问不同页面，速度就要更慢，这里介绍selenium方法爬取，下一篇文章：爬虫笔记——东方财富科创板数据爬取（requests方法）介绍requests方法。

具体代码

代码如下，注意在run函数中，需要根据爬取的总共条数定义一下函数的参数，这里由于每页为50个公司，总共只有149条数据，故参数为(50,149)：

# 东方财富科创板数据爬取-selenium
from selenium import webdriver
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By
from lxml import etree
import re
import time
import pandas as pd

class eastmoneyspider():
    def __init__(self):
        self

最低0.47元/天解锁文章

wang_zuel

关注

3
点赞
踩
21

收藏

觉得还不错? 一键收藏
0
评论
爬虫笔记——东方财富科创板数据爬取（selenium方法）

爬虫笔记——东方财富科创板数据爬取（selenium）网站观察selenium方式爬取优点：无需观察网站去查找数据来源缺点：速度较requests方法更慢网站观察网址：东方财富科创板数据===================================================================================================...
复制链接

扫一扫