python 爬取斗鱼 Ajax动态加载js分页使用phontomjs无界面浏览器

最新推荐文章于 2023-08-24 10:42:58 发布

大蛇王

最新推荐文章于 2023-08-24 10:42:58 发布

阅读量1.4k

点赞数

分类专栏： python爬虫项目文章标签： phontomjs 爬虫分页 ajax douyu

本文链接：https://blog.csdn.net/t8116189520/article/details/78750874

版权

python爬虫项目专栏收录该内容

14 篇文章 4 订阅

订阅专栏

本文介绍了一个使用Python Selenium和BeautifulSoup实现的斗鱼直播平台爬虫案例。该爬虫可以抓取房间名称、观众数量及主播信息，并通过翻页功能获取更多数据。通过这个示例，读者可以了解如何利用自动化工具进行网页数据抓取。

摘要由CSDN通过智能技术生成

python2.7版本

#coding:utf8
import unittest
from selenium import webdriver
from bs4 import BeautifulSoup as bs

class douyu(unittest.TestCase):
    # 初始化方法，必须是setUp()
    def setUp(self):
        self.driver = webdriver.PhantomJS()

        self.num = 0
        self.count = 0

    # 测试方法必须有test字样开头
    def testDouyu(self):
        self.driver.get("https://www.douyu.com/directory/all")

        while True:
            soup = bs(self.driver.page_source, "lxml")
            # 房间名, 返回列表
            names = soup.find_all("h3", {"class" : "ellipsis"})
            # 观众人数, 返回列表
            numbers = soup.find_all("span", {"class" :"dy-num fr"})
            #主播id
            peoples = soup.find_all("span", {"class": "dy-name ellipsis fl"})

            # zip(names, numbers) 将name和number这两个列表合并为一个元组 : [(1, 2), (3, 4)...]
            for name, number,people in zip(names, numbers,peoples):
                print u"观众人数: -" + number.get_text().strip() + u"-\t房间名: " + name.get_text().strip() + u"-\t主播名: " + people.get_text().strip()
                self.num += 1
                #self.count += int(number.get_text().strip())

            # 如果在页面源码里找到"下一页"为隐藏的标签，就退出循环
            if self.driver.page_source.find("shark-pager-disable-next") != -1:
                    break

            # 一直点击下一页
            self.driver.find_element_by_class_name("shark-pager-next").click()

    # 测试结束执行的方法
    def tearDown(self):
        # 退出PhantomJS()浏览器
        print "当前网站直播人数" + str(self.num)
        print "当前网站观众人数" + str(self.count)
        self.driver.quit()

if __name__ == "__main__":
    # 启动测试模块
    unittest.main()

运行完结果：