python 爬取直播_py 爬取某网站直播集锦-工作需求，现场直播

最新推荐文章于 2024-04-25 15:38:07 发布

weixin_39816448

最新推荐文章于 2024-04-25 15:38:07 发布

阅读量359

点赞数

文章标签： python 爬取直播

在观看本文之前，你需要了解以下技术

爬虫的五个步骤

a) 需求分析程序员,人工智能

b) 找到内容相关的网址程序员

c) 根据网址获取到网址的返回信息程序(urllib, requests)

d) 定位需要的信息位置程序(re正则表达式, XPATH, css selector)

e) 存储内容程序(文件系统open, pymysql, pymongo)

今天需要做的事情有哪些

a) HTTP/HTTPS

b) 如何能够观察HTTP的包

c) 使用requests的包, get, post

包头中重要的信息描述

a) Cookie : 能够存储一些服务器端的信息,与session共同完成身份标志的工作

b) User-Agent : 你的标签有哪些

c) Referer : 从哪个页面跳转过来的

如果浏览器能够访问, 但是你不能, 添加headers, 先添加User-Agent, 再添加

Referer, 最后添加Cookie, 最最后全添加.

爬取一个网站的时候,你需要确定信息是不是在这个网站上的

注意,在抓包的过程中, 最好将 preserve_log 勾选上

右键->检查->network->Preserve log

谷歌开发者工具里面这个preserve log ：保留请求日志，跳转页面的时候勾选上，可以看到跳转前的请求，也可适用于chrome开发者工具抓包的问题

如果需要登录后才能访问的内容, 我们可以先做登录, 然后再访问

这里就需要用到一个类, session

将所有的requests改成session的实例就可以了

需求

LTOIdtBIyi.png!large

根据条件，匹配指定li，点击进入集锦。

把集锦列表拿走。

Nnyx9jLcCj.png!large

1. 目标网站

赛事：下面的一个完赛板块。

根据日期主队客队匹配比赛，进入比赛拿走集锦。

2. 分析网页

先来看看这个主页的完赛板块，是如何实现的，是ajax，还是jq隐藏展示

最要查看是否有请求：

没有请求，肯定是jq 隐藏展示控制的。也就是主页一打开，这些html 元素和数据都是加载好的。

那明确目标：我们爬取的第一次访问数据，一定是首页。

第二：找到我们要的完赛的html元素，特征点。

SmJ2liIYjB.png!large

UTUn3eMpJV.png!large

这里发现，点击tab 是没有特征的。

找到完赛的 div

KHGvFcpZFT.png!large

第三找规则

qU1MuJ6bx3.png!large

找准我们要匹配的数据。

日期；主队，客队。

发现他存在，如图所示，箭头出。

日期，是 div class content -> div class titlebar！

主队客队名字在 div class content-> li 文字有。和有一个属性，left-team。

客队名字： div class content-> li ->img 文字下。

那么找到了规则。我们就开始写脚本吧。

3. 编写爬虫脚本

现在开始编写，第一部分的脚本。

预计分为两个步骤。

1. 首页找到指定比赛li 获得下一个脚本的详情url

详情页爬取集锦

存入数据库

直播结果截图

写了两种get 方式，目前已经拿到数据，正在写规则匹配

34KXt9hMNl.png!large

本作品采用《CC 协议》，转载必须注明作者和本文链接

感谢关注

上海PHP自学中心-免费编程视频教学|

weixin_39816448

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python 爬取直播_py 爬取某网站直播集锦-工作需求，现场直播

在观看本文之前，你需要了解以下技术爬虫的五个步骤a) 需求分析程序员,人工智能b) 找到内容相关的网址程序员c) 根据网址获取到网址的返回信息程序(urllib, requests)d) 定位需要的信息位置程序(re正则表达式, XPATH, css select...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。