如何利用python爬虫爬取直播网站信息_[Python爬虫]使用Python爬取静态网页-斗鱼直播...

最新推荐文章于 2022-07-13 11:41:25 发布

weixin_39575937

最新推荐文章于 2022-07-13 11:41:25 发布

阅读量493

点赞数 1

文章标签：如何利用python爬虫爬取直播网站信息

原标题：[Python爬虫]使用Python爬取静态网页-斗鱼直播

好久没更新Python相关的内容了，这个专题主要说的是Python在爬虫方面的应用，包括爬取和处理部分

第一节我们介绍如何爬取静态网页

[Python爬虫]使用Python爬取动态网页-腾讯动漫(Selenium)

http://www.aibbt.com/a/18049.html

[Python爬虫]使用Python爬取静态网页-斗鱼直播

http://www.aibbt.com/a/18048.html

[Python爬虫]使用Python爬取动态网页-豆瓣电影(JSON)

http://www.aibbt.com/a/18047.html

[Python爬虫]使用Selenium操作浏览器订购火车票

http://www.aibbt.com/a/18046.html

静态网页指的是网页的内容不是通过js动态加载出来的

我们可以直接使用一些开发者工具查看

这里我采用谷歌浏览器的开发者工具

开发环境

操作系统:windows 10

Python版本 :3.6

爬取网页模块:requests

分析网页模块:Beautiful Soup 4

模块安装

pip3 install requests

pip3 install beautifulsoup4

网页分析

我们使用炉石传说的页面来开始分析

https://www.douyu.com/directory/game/How

我们可以通过左上角的箭头来定位网页内容对应的源

从上面我们可以看出单个直播的信息都在li标签下面，包括:

封面图片地址直播介绍主播名称观看人数

代码介绍

这里逐行介绍代码

1. import相关的模块

import requests

from bs4 import BeautifulSoup

2. 使用request模块打开并获取网页内容

verify=False 在打开https网页时使用

url='HTTPs://www.douyu.com/directory/game/'+douyugame

r = requests.get(url,verify=False)

content=r.content

3. 使用bs4格式化获取的网页

这时就可以使用bs4的功能来处理网页了

soup = BeautifulSoup(content,"lxml")

4. 获取所有li标签

这里获取所有具有data-cid属性的li标签

live_list=soup.find_all('li',attrs = {'data-cid' : True})

5.循环获取到li标签，然后提取需要的信息

我们这里只提取在线人数大于8000的直播间

game_count=all_game.find('span',attrs = {'class' : 'dy-num fr'}).text

代表查找一个span标签，其class属性值为dy-num fr，然后获取它的内容

game_link='https://www.douyu.com'+all_game['href']

代表获取a标签中href属性的值

剩下的同理

6. 最后将获取到的信息放入字典中

这时我们可以将结果存入数据库中供查看，这里就不多说了

执行结果

源码位置

源码请访问我的github主页:也可点击阅读全文

https://github.com/bsbforever/spider/blob/master/static_web.py

责任编辑：

weixin_39575937

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。