使用selenium爬取微博热门话题并写入文本文件

最新推荐文章于 2022-11-03 21:03:12 发布

Xin Deng

最新推荐文章于 2022-11-03 21:03:12 发布

阅读量1.1k

点赞数

分类专栏： python 文章标签： python selenium

本文链接：https://blog.csdn.net/Desiy/article/details/109601391

版权

python 专栏收录该内容

8 篇文章 6 订阅

订阅专栏

使用selenium爬取网页数据

一、安装环境

1.安装selenium

在这里插入图片描述

2.配置ChromeDriver

点击Google菜单帮助 -> 关于Google Chrome -> 查看版本号
对比自己浏览器版本下载相应版本的ChromeDriver：下载地址
解压后把文件放到 python的script目录下：我的是在D盘下的python中
最后需要配置环境变量

在这里插入图片描述

二、测试

from selenium import webdriver
 
driver= webdriver.Chrome()
driver.maximize_window()
 
driver.implicitly_wait(3)#等待3秒
 
 
driver.get("https://baidu.com")
driver.quit()

如果能成功打开网页则说明环境配置成功。

三、爬取微博热门话题

爬取网页：
在这里插入图片描述

爬取数据：

在这里插入图片描述

从网页页面来看每页有15条数数据，有7页，那么就有105条数据，我们先一步一步来。

F12：

在这里插入图片描述

我所画出的部分应该是数据所在处，我们就从WB_innerwrap开始确定我们需要数据所在的标签。

在这里插入图片描述

# 导入相关依赖
import selenium
from selenium.webdriver import Chrome

# 创建一个driver
driver = Chrome()
# 请求
driver.get("https://d.weibo.com/231650")
# 定位元素
element = driver.find_element_by_class_name("m_wrap.clearfix")
if not element:
    print("元素未找到")
    driver.quit()

报错：

在这里插入图片描述

如果找到了元素，结果不会报错，如果没有找到元素会输出“元素未找到”。两者都没有，运行后，浏览器能正常打开（如下图）；

在这里插入图片描述

就那么几行代码，代码没有报错，那么问题出在哪里？

在我们运行后，网页不是立马就能打开，那么如果我们能让网页加载完毕后再去定位元素，会不会成功呢？

更新代码：为什么让它睡4s呢？可能每个人在这里设置的时间不同，我从1s开始测试，只有4s的时候最快。（也许网速快慢觉得睡眠时间长短）

# 导入相关依赖
import selenium
from selenium.webdriver import Chrome
import time

# 创建一个driver
driver = Chrome()
# 请求
driver.get("https://d.weibo.com/231650")
# 
time.sleep(4)
# 定位元素
element = driver.find_element_by_class_name("m_wrap.clearfix")
if not element:
    print("元素未找到")
    driver.quit()

结果：

在这里插入图片描述

首先爬取排名：Top1、Top2…

# 导入相关依赖
import selenium
from selenium.webdriver import Chrome
import time

# 创建一个driver
driver = Chrome()
# 请求
driver.get("https://d.weibo.com/231650")
#
time.sleep(4)
# 定位元素
element = driver.find_element_by_class_name("m_wrap.clearfix")
if not element:
    print("元素未找到")
    driver.quit()

for e in element.find_elements_by_tag_name("li"):
    no = e.find_element_by_tag_name("span")
    print(no.text)

在这里插入图片描述

同理获取标题、内容、阅读数：

title = e.find_element_by_class_name("text_box").find_element_by_tag_name("a")
    content = e.find_element_by_class_name("text_box").find_element_by_class_name("subtitle")
    num = e.find_element_by_class_name("W_fl").find_element_by_tag_name("span")

我们这里使用try…except

for e in element.find_elements_by_tag_name("li"):
    try:
        no = e.find_element_by_tag_name("span")
        title = e.find_element_by_class_name("text_box").find_element_by_tag_name("a")
        content = e.find_element_by_class_name("text_box").find_element_by_class_name("subtitle")
        num = e.find_element_by_class_name("W_fl").find_element_by_tag_name("span")
    except:
        continue

为了让爬取的数据更直观，我们将数据写入一个文本文件。

代码如下：

# 导入相关依赖
import selenium
from selenium.webdriver import Chrome
import time

# 创建一个driver
driver = Chrome()
# 将获取的数据写入data
data = open("./data.txt", "w")
# 请求
driver.get("https://d.weibo.com/231650")
# 给网页一个加载时间 4s
time.sleep(4)


# 定位元素
element = driver.find_element_by_class_name("WB_innerwrap").find_element_by_class_name("clearfix")
if not element:
    print("元素未找到")
    driver.quit()

for e in element.find_elements_by_tag_name("li"):
    try:
        # 排名
        no = e.find_element_by_tag_name("span")
        data.write("{}:{}".format("热度", no.text))
        # 题目
        title = e.find_element_by_class_name("text_box").find_element_by_tag_name("a")
        data.write(" {}:{}\n".format("标题", title.text))
        # 简介
        content = e.find_element_by_class_name("text_box").find_element_by_class_name("subtitle")
        data.write("{}{}\n".format("", content.text))
        # 阅读量
        num = e.find_element_by_class_name("W_fl").find_element_by_tag_name("span")
        data.write("{}{}\n".format("", num.text))
        data.write("\n")
    except:
        continue

# 关闭文件和浏览器
data.close()
driver.quit()
print("完成！")

在这里插入图片描述

这只是一页的数据，我们如果要获取7页的数据该这么做呢？

我们在浏览网页的时候，是需要点击下一页即可，那当我们获取到了下一页的标签，再加上个click()，是不是就能实现自动点击下一页的操作。

在这里插入图片描述

next_page = driver.find_element_by_tag_name("a.page.next.S_txt1.S_line1")
print(next_page.text)

结果：

在这里插入图片描述

接下来我们只要用while循环就可以实现自动翻下一页了

while True:
    # 定位元素
    element = driver.find_element_by_class_name("WB_innerwrap").find_element_by_class_name("clearfix")
    if not element:
        print("元素未找到")
        driver.quit()

    for e in element.find_elements_by_tag_name("li"):
        try:
            # 排名
            no = e.find_element_by_tag_name("span")
            data.write("{}:{}".format("热度", no.text))
            # 题目
            title = e.find_element_by_class_name("text_box").find_element_by_tag_name("a")
            data.write(" {}:{}\n".format("标题", title.text))
            # 简介
            content = e.find_element_by_class_name("text_box").find_element_by_class_name("subtitle")
            data.write("{}{}\n".format("", content.text))
            # 阅读量
            num = e.find_element_by_class_name("W_fl").find_element_by_tag_name("span")
            data.write("{}{}\n".format("", num.text))
            data.write("\n")
        except:
            continue

    try:
        # 下一页
        next_page = driver.find_element_by_tag_name("a.page.next.S_txt1.S_line1")
    except:
        break
    else:
        # 点击
        next_page.click()

为了确保在写入文本文件时数据的准确性，我们使用print输出我们需要爬取的数据。

这里只用输出no即可

在这里插入图片描述

可以看出，结果很乱，如果就这样的数据写入文本文档中去，肯定是不行的，而且这个while停不下来。

在这里插入图片描述

当我再次使用F12检查网页的时候，发现第7页所对应的“下一页”标签改变了！从输出结果来看，它是一直重复点击第7页。

在这里插入图片描述

这里我想手动控制循环次数：

i = 7
# 定位元素
while i:
    # 定位元素
    element = driver.find_element_by_class_name("WB_innerwrap").find_element_by_cla
    .
    .
    .
    else:
        # 点击
        next_page.click()
        i = i-1

从结果来看，循环已经不是死循环了，但是输出的数据是有问题的。按道理来说输出结果应该是：Top1、Top2、Top3、4、…105。

在这里插入图片描述

后来我观看了运行程序跳出的网页点击“下一页”的速度很快，也就是说，点击了6次，也循环了6次，但是整个过程的时间太快了，倒置输出这样的结果。

那我又想到了让它睡个几秒再看看结果：

# 点击
next_page.click()
time.sleep(3)
i = i-1

问题解决

在这里插入图片描述

写入文本文件：

在这里插入图片描述
数据105条正确无误。

Xin Deng

关注

0
点赞
踩
13

收藏

觉得还不错? 一键收藏
3
评论
使用selenium爬取微博热门话题并写入文本文件

使用selenium爬取网页数据一、安装环境1.安装selenium2.配置ChromeDriver点击Google菜单帮助 -> 关于Google Chrome -> 查看版本号对比自己浏览器版本下载相应版本的ChromeDriver：下载地址解压后把文件放到 python的script目录下：我的是在D盘下的python中最后需要配置环境变量二、测试from selenium import webdriver driver= webdriver.Chrome
复制链接

扫一扫

专栏目录