python 爬虫动态页面_python 动态页面爬取，这个并不是加载更多的动态页面，各位看官往下看...

最新推荐文章于 2024-05-02 21:47:38 发布

weixin_39805883

最新推荐文章于 2024-05-02 21:47:38 发布

阅读量85

点赞数

文章标签： python 爬虫动态页面

import scrapy

from selenium import webdriver

from text5_Douyu.items import Text5DouyuItem

先贴代码

import urllib3

class DouyuimageSpider(scrapy.Spider):

name = 'DouyuImage'

#allowed_domains = ['douyu.com']

start_urls = ['https://yuba.douyu.com/allclassify/anchorlist/list/516']

def parse(self, response):

item=Text5DouyuItem()

content=response.xpath("//div[@clas='classify-classifyGroup-1lMJV']")

for list in content:

nickname=list("./div/p/text()").extract()[0]

image_href=list("./img/@scr").extract()[0]

item[nickname]=nicknme

item[image_href]=image_href

yield item

主要代码就只有这么点，其他的设置均正确，只是一个小小的爬虫，但是爬取的网页有问题！！！！

这个代码主要是爬取斗鱼上的主播信息，但是代码写好以后才发现，扒下来的网页代码和在网页上直接看的代码是不一样的，只能说自己是个菜呗，刚知道这也叫动态网页。

网页链接如下：[链接描述][1]https://yuba.douyu.com/allclassify/anchorlist/list/516

斗鱼主播的信息在网页上按下F12能显示，但是右键“检查网页源代码”就会将主播信息屏蔽了。然后扒下来的代码也是没有主播信息的代码！！！表示没弄懂要怎样去扒取这种动态网页。

请问这种动态网页怎样爬取？是用selenium吗，反正我是不知道了，请各位不吝赐教，万分感谢！！！！！

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39805883

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

用爬虫抓取动态加载数据丨Python爬虫实战系列(6)

阿星的Python技术分享博客

05-16

4897

本节讲解用Python爬虫抓取动态加载数据，其中涉及到XHR断点，Ajax 异步加载，正则表达式等。【阿星建议】在学Python爬虫的老铁得练练~

m0_60707660的博客

05-05

452

🍅 硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。🍅 技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。🍅 面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。🍅 知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化学习资料的朋友，可以戳这里获取。

参与评论您还未登录，请先登录后发表或查看评论

python爬虫实践——零基础快速入门（六）解决动态页面爬取问题

MTbaby的博客

01-31

3017

python爬虫实践——零基础快速入门（六）解决动态页面爬取问题前面我们已经学过爬取豆瓣电影、豆瓣图书TOP250，小猪租房等信息。相信你现在都能轻易上手爬取其他网站了。通过前面的例子我，我们知道，爬取大量数据的重点在于通过循环翻页提取重要的信息。但是你会遇到，爬取其他网页的时候，有时候没有翻译这个按钮，这TM就尴尬了。比如我们之前爬过的豆瓣电影，去到那个分类页面，发现下面只有“加载跟多”，并没

点击加载更多

weixin_30407613的博客

07-03

161

<!DOCTYPE html><html><head> <title>无限翻页测试</title> <meta name="viewport" content="width=device-width,initial-scale=1,minimum-scale=1,maximum-scale=1,user-sca...

Python爬虫解决javascript:void(0)加载查看更多的解决方法

08-13

3269

Python爬虫开发（四）：动态加载页面的解决方案与爬虫代理

01-13

1603

0x00 前言如果读者读过我前面的关于爬虫的文章，应该大概都清楚我们现在可以对一个静态的web页面”为所欲为“了，但是技术的发展总是没有止境的，仅仅是这样对静态页面处理远远不够，要知道现在很多的web页面有意无意为了防止静态爬虫使用ajax技术动态加载页面，这就导致了在面对这些网站的时候，我们前面的技术并不能起到什么很好的效果，所以，我在本系列文章开头就说了会提供动态加载网页的解决方案，在这篇文章里，笔者就在这里提出这个解决方案，用来解决以前我们没有办法的问题。 0x01 动态页面解决方案Seleni

Python爬虫——简单网页抓取（实战案例）小白篇_python爬虫爬取网页数据

2401_84562810的博客

05-02

1483

pythonkw = input(‘请输入要翻译的英文单词：’)data = {‘kw’: kw# 由于百度翻译没有反扒措施，因此可以不写请求头‘referer’: ‘百度翻译-200种语言互译、沟通全世界！’,

Python爬虫：爬取需要登录的网站（附爬虫视频教程）_python 爬虫如何爬取需要登录

m0_61067876的博客

04-30

1771

要访问的目标页面# 代理服务器(产品官网 www.16yun.cn)# 代理隧道验证信息# 设置 http和https访问都是用HTTP代理# 访问三次网站，使用相同的Session(keep-alive)，均能够保持相同的外网IP# 设置cookieresponse1 = requests.get(url_login) # 未登陆response2 = requests_session.get(url_login) # 已登陆，因为之前拿到了Response Cookie！

【python爬虫】动态加载页面的解决办法（以ins为例）

dawn_yue的博客

10-26

2万+

现在很多的web页面使用ajax技术动态加载页面。但对于爬虫来说，目标数据很可能不在页面HTML源码中（右键查看网页源代码，通过F12查找），针对静态页面的爬虫不再满足现在的需求。很多教程都推荐用Selenium和PhantomJS配合使用，实现网页的渲染，得到网页的全部信息。但是对于爬虫程序，模拟浏览器内存开销实在是非常大，而且效率低。

python3.4.4实现网页爬虫的三种方法

04-03

慕课网《Python开发简单爬虫》课程用的是2.7，这里用最新的3.4.4实现出来，差别挺大的，分享给新人

【黑科技】爬虫也可以一键获取 [加载更多] 数据，无编码学爬虫之三。

梦想橡皮擦，专栏100例写作模式先行者，现象级专栏《Python 爬虫 100 例》作者、《滚雪球学 Python 专栏》原创者

12-09

2万+

产品100 网站数据抓取，由此而解决包含加载更多按钮的各种网站

python 如果遇到爬取解析到得文本为 style="display: none" 没有找到相关内容该怎样解决修改文本属性获取新的内容

hou9876543210的博客

05-01

7192

在有的爬取网页内容时候有时候遇到text得内容为空如下图所示这应该就是display:none的问题，遇到这样问题要改变css的style中的内容这需要pyquery这个库下面图是原始f12中的disply：block 显示内容所以爬取时候内容一的到实际的内容为准也就是requests.get(url = " ",headers = " ").text 不说太多上代码下面有详...

Python爬虫入门 | 7 分类爬取豆瓣电影，解决动态加载问题

DataCastle

12-15

9529

比如我们今天的案例，豆瓣电影分类页面。根本没有什么翻页，需要点击“加载更多”新的电影信息，前面的黑科技瞬间被秒…… 又比如知乎关注的人列表页面：我复制了其中两个人昵称的 xpath：//*[@id="Popover-35130-11238-toggle"]/a //*[@id="Popover-35130-42416-toggle"]/a竟然需要 ID 这种恶心的东西，规律失效。我们

爬虫处理“显示更多”按钮

qq_45099319的博客

01-14

2753

Python3.X 爬虫实战（动态页面爬取解析）

python 爬虫 动态页面_python 动态页面爬取，这个并不是加载更多的动态页面，各位看官往下看...

python 爬虫动态页面_python 动态页面爬取，这个并不是加载更多的动态页面，各位看官往下看...