python动态网页技术_Python如何利用Selenium或者PhantomJS爬取动态网页内容

最新推荐文章于 2021-12-12 22:10:11 发布

努力提高做饭水平

最新推荐文章于 2021-12-12 22:10:11 发布

阅读量120

点赞数

文章标签： python动态网页技术

本文链接：https://blog.csdn.net/weixin_42362931/article/details/114960943

版权

事实上，我刚才试了一下，页面不是用xhr加载的，在页面的源代码中已经有了，然后调用了一个类把数据加载为一个table。

比如，首页的数据：

然后，提取就直接使用re提取就可以了，得到文本以后json解析就好了。

先写到这里。

+++++++++++++++++++++++++++++++++++++++++

然后，就是这个网站不使用xhr加载数据而是使用的js来加载json数据，动态解析来显示。具体分析需要用到js的知识，如果你了解也可以自己尝试解析。

我尝试了一下。

from urllib.parse import quote

import time

import requests

url = "http://datainterface.eastmoney.com/EM_DataCenter/JS.aspx?type=FD&sty=TSTC&st={sortType}\

&sr={sortRule}&p={page}&ps={pageSize}&js=var {jsname}=(x){param}"

params = {

"sortType": 1,

"sortRule": 1,

"page": 2,

"pageSize": 50,

"jsname": "Aafdafgq", # 这里使用的是随机字符串，8位

"param": "&mkt=0&rt="

}

params["param"] += str(int(time.time()/30)) # 当前时间

url = url.format(**params)

url = quote(url, safe=":=/?&()")

req = requests.get(url)

req.text

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

努力提高做饭水平

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Python3+selenium+PhantomJS+scrapy获取B站排行版Ajax动态爬虫

Super涌

01-16

1017

1 安装需要的依赖 pip install selenium pip install scrapy pip install pymysql PhantomJS下载地址： http://phantomjs.org/download.html 2 创建scrapy项目 scrapy startproject bilibili cd bilibili scrapy genspide

Python爬虫实现模拟点击动态页面

09-17

主要介绍了Python爬虫实现模拟点击动态页面,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

参与评论您还未登录，请先登录后发表或查看评论

python中selenium中使用ajax_Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容(示例代码)...

weixin_39982452的博客

11-30

216

在上一篇python使用xslt提取网页数据中，要提取的内容是直接从网页的source code里拿到的。但是对于一些Ajax或动态html, 很多时候要提取的内容是在source code找不到的，这种情况就要想办法把异步或动态加载的内容提取出来。python中可以使用selenium执行javascript，selenium可以让浏览器自动加载页面，获取需要的数据。selenium自己不带浏览...

每天读取当天东方财富的分红派息数据

qq_42560106的博客

07-05

1475

并存放在CC.TXT文件里import requests import time from bs4 import BeautifulSoup d1 = time.strftime("%Y-%m-%d", time.localtime()) #配置带-符号的日期格式，这个在下面的网址中要用到 url = ('http://datainterface.eastmoney.com/EM_DataCent...

python爬取js动态网页_Python 从零开始爬虫(八)——动态爬取解决方案之 selenium

weixin_39595271的博客

11-25

758

selenium——自动化测试工具，专门为Web应用程序编写的一个验收测试工具，测试其兼容性，功能什么的。然而让虫师们垂涎的并不是以上的种种，而是其通过驱动浏览器获得的解析JavaScript的能力。所以说这货在动态爬取方面简直是挂逼级别的存在，相较于手动分析更简单易用，节省分析打码时间。虽然selenium因其“超能力”被不少人吹上天了，但是认清利弊，根据需求来选择爬虫工具，还是挺重要的，所以这...

基于Python3的动态网站爬虫，使用selenium+phantomjs实现爬取动态网站, 本项目以爬取今日头条为例.zip

最新发布

04-08

本项目将详细介绍如何利用Python3结合selenium和phantomjs来爬取动态加载的网页内容，以今日头条为例，进行实战演练。 1. **Python3基础知识**：Python3是这个爬虫项目的基石，它提供了高效的编程接口和丰富的标准...

python+selenium+PhantomJS抓取网页动态加载内容

12-20

在这个场景中，我们将讨论如何结合Python、Selenium和PhantomJS来抓取动态加载的网页内容。首先，确保你已经安装了Python 3.5或更高版本。接下来，你需要安装Selenium库，可以通过Python的包管理器pip来完成，命令...

Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容

01-20

在上一篇python使用xslt提取网页数据中，要提取的内容是直接从网页的source code里拿到的。但是一些Ajax动态内容是在source code找不到的，就要找合适的程序库把异步或动态加载的内容加载上来，交给

python实现动态网页_python实现动态网页信息抓取

weixin_39957805的博客

12-06

511

Python+Selenium动态网页的信息爬取

weixin_56102526的博客

12-12

3191

一、小练手一、安装配置一、小练手一、安装配置 conda install selenium 2.要使用selenium去调用浏览器，还需要一个驱动，不同浏览器的webdriver需要独立安装 https://www.selenium.dev/documentation/en/webdriver/driver_requirements/Driver requirementshttps://www.selenium.dev/documentation/en/webdriver/driver_requi.

python selenium 获取动态网页数据

u012406790的专栏

07-14

2513

# -*- coding:utf-8 -*- import requests from bs4 import BeautifulSoup from selenium import webdriver import time import json import sys reload(sys) sys.setdefaultencoding("utf-8") curpath=sys.path[0]

PhantomJS(webkit)/SlimerJS (Gecko) + CasperJS获取JavaScript渲染后的网页内容

xlxxcc的专栏

07-28

1万+

前言：使用PhantomJS(webkit)或者SlimerJS (Gecko) 配合 CasperJS获取JavaScript渲染后的网页内容以及内嵌子网页渲染后的内容, 那么这样做到底能为我们做什么？坏笑，我就不多说了，当然是来帮我分析解决网页的问题了，然后是网络爬虫，还能做什么不好的事？相信大家是可意会不可言传，不就是这么不言而喻吗！！要做网络爬虫，除了使用PhantomJS(web

小猪的Python学习之旅 —— 5.使用Selenium抓取JavaScript动态生成数据的网页

热门推荐

Coder-Pig的猪栏

01-09

18万+

小猪的Python学习之旅 —— 5.使用Selenium抓取JavaScript动态生成数据的网页标签： Python 引言之前抓的妹子图都是直接抓Html就可以的，就是Chrome的浏览器F12的 Elements页面结构和Network抓包返回一样的结果。后面在抓取一些网站(比如煎蛋，还有那种小网站的时候)就发现了，Network那里抓包获取的数据没有，而Elem...

python 制作动态网页_Python3如何抓取JS动态生成的html网页功能实现示例

weixin_39588104的博客

11-26

294

这篇文章主要介绍了Python3实现抓取javascript动态生成的html网页功能,结合实例形式分析了Python3使用selenium库针对javascript动态生成的HTML网页元素进行抓取的相关操作技巧,需要的朋友可以参考下本文实例讲述了Python3实现抓取javascript动态生成的html网页功能。分享给大家供大家参考，具体如下：用urllib等抓取网页，只能读取网页的静态源文...

一个爬取沪深两市融资融券标的融资融券交易数据的小爬虫

buracag_mc的博客

03-01

5910

一个爬取沪深两市所有融资融券标的融资融券数据的小爬虫（也可爬取自定义标的）；另外增加了一个简易GUI界面，并将函数中的流映射输入到弹出的GUI窗口中；可支持打包成exe可执行文件。

python selenium调用js接口分析_selenium在执行phantomjs的API并获取执行结果的方法

weixin_39617484的博客

11-30

288

前言因为最近要写一个抓取sitemap和相应的参数的小脚本，现有的爬虫无论用什么语言写的，几乎都无法抓取参数，所以我思考了一下，先做一个简单的总结。本来以为写个这种sitemap的爬虫很简单，经过思考之后才发现其中的可怕之处，最关键的是参数的提取，这个太麻烦了。。。这个时候才发现AWVS的无敌和强大之处。。。如果我们要获取网站的sitemap同时还要抓取对应链接的参数，我大概总结了url的几个来源...

Python爬虫利用Selenium与PhantomJS解析图片懒加载技术详解

本文将深入探讨Python爬虫中图片懒加载技术的应用，重点结合selenium和PhantomJS两个工具进行解析。首先，我们来理解什么是图片懒加载。图片懒加载是一种网页设计策略，它延迟加载非可视区域的图片，直到用户滚动到...