用BeautifulSoup + selenium 写简单的爬虫编程

本文通过实例教程介绍了如何结合BeautifulSoup和selenium库来编写一个简单的爬虫,抓取选股宝网站上的利好和利空股票名称。在爬虫中,我们自动打开Chrome浏览器,模拟点击加载更多以获取更多数据,并通过分析网页源码定位并提取所需内容,最后将数据写入文件。通过封装函数,提高了代码的可移植性和维护性。
摘要由CSDN通过智能技术生成

我们以抓取选股宝网页里面的利好以及利空对应的股票名称为例子

1、创建项目

        打开PyCharm



2、新建py文件



3、编程

    3.1 创建文件函数

# 创建文件函数 (文件路径,文件名)
def establish_file(file_path, file_name):
    # 文件路径
    path = file_path + file_name
    # 判断文件是否存在
    if os.path.exists(path):
        print(file_name + "文件已存在,正在删除...")
        # 删除原有文件
        os.remove(path)
        print("原有文件已经删除,正在重新创建文件...")
    # 创建文件(文件路径,打开方式'w'只写,编码格式)
    f = io.open(path, 'w', encoding='utf-8')
    # 关闭文件
    f.close()
    print("文件创建成功!")

    3.2 数据写入文件

# 将获取数据写入文件中(文件路径,文件名,数据)
def write_data(file_path, file_name, data):
    # 文件路径
    path = file_path + file_name
    # 打开创建文件(文件路径,打开方式'a'追加,编码格式)
    f = io.open(path, 'a', encoding='utf-8')
    print("正在写入" + file_name + "...")
    # 数据写入文件
    f.write(data)
    print("写入成功")
    # 关闭文件
    f.close()

    3.3 爬虫函数

        3.3.1 爬虫自动打开Chrome浏览器,并多次点击加载更多

            话不多说,代码伺候

    Chrome_driver = webdriver.Chrome()     # 打开浏览器
    Chrome_driver.maximize_window()        # 最大化浏览器
    Chrome_driver.get(url)                 # 打开选股宝网站
    for i in range(0, n):                  # n次点击加载更多
        Chrome_driv
  • 4
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值