python爬取jsp网页_python网络爬虫—爬取网页的通用代码框架及HTTP协议【2】

最新推荐文章于 2021-09-22 11:06:37 发布

weixin_39851457

最新推荐文章于 2021-09-22 11:06:37 发布

阅读量749

点赞数

文章标签： python爬取jsp网页

本文介绍了Python爬虫的基础知识，包括使用Requests库进行网页访问的通用代码框架，强调了异常处理的重要性。此外，还探讨了HTTP协议的基本概念，如URL格式、HTTP方法（GET、POST、PUT、PATCH）以及它们在网络资源操作中的作用。通过实例展示了如何处理HTTP请求，并提到了Requests库的方法，如HEAD()和POST()。

摘要由CSDN通过智能技术生成

-Modest_Proud-

一、爬取网页的通用代码框架

首先，我们使用Requests库进行网页访问的时候，经常用get()，获得url的相关内容。

由于网络连接是有风险的，所以异常处理语句很重要。

理解爬取网页的通用代码框架

import requests ##加载Requests库

def getHTMLText(url):

##定义getHTMLTexl函数

try:

r=requests.get(url,timeout=30)

##设定get函数参数，超时限制30s

r.raise_for_status()

##如果状态不是200，引发HTMLError异常

r.encoding="utf-8"

##更改编码为utf-8格式

return r.text

##返回网页文本内容

except:

return "产生异常"

##返回异常提示

if __name__=="__main__":

##运行模块

url="http://www.baidu.com"

##给url赋值

print(getHTMLText(url))

##打印函数内容

输出结果如下图

如果我们将url=“http://www.baidu.com"改成ur

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39851457

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

python爬取jsp网页_python网络爬虫模拟登录爬取绩点（使用requests库）

weixin_39607873的博客

12-03

1603

前言：随说学校教务提供API读取成绩，但获得权限要申请。正好刚刚学习爬虫就自己来一下。折腾了两天看了无数的教程。犯下了无数傻瓜的错误(下面会说到。折磨的我不要不要的)废话不说了先上代码import requestsimport sysreload(sys)sys.setdefaultencoding('utf8')hea = {'User-Agent':'Mozilla/5.0 (Windows ...

python爬虫案例_Python法律实务应用——制作爬虫获取指导案例

weixin_39640085的博客

12-20

1098

hi，大家好，我是虞元坚律师。爬虫技术，是python的一个重要应用领域，也是互联网技术中非常常见的一项技术。我之前已经写过很多有关爬虫的文章，但是大多数都是关于爬虫技术涉及的法律问题方面。今天，我就有针对性的来讲一讲，如何利用Python制作我们的爬虫工具，并且自动化搜集信息。为了不耽误大家时间，我先提前总结下本文主要面向的对象和会使用的知识。适用对象：已经有一定入门知识的Python...

参与评论您还未登录，请先登录后发表或查看评论

python爬取jsp网页_Python 爬取热词并进行分类数据分析-[JSP演示+页面跳转]

weixin_39735166的博客

12-03

1090

日期：2020.02.03博客期：142星期一【本博客的代码如若要使用，请在下方评论区留言，之后再用(就是跟我说一声)】所有相关跳转：a.【简单准备】c.【拓扑数据】d.【数据修复】f.【JSP演示+页面跳转】(本期博客)i . 【App制作】j . 【安全性改造】今天开始准备把昨天的任务补一下，再补充一下以前的博客。1、全部热词演示页面改写我追加了其他页的展示和页面跳转部分js内容附加新增代码：...

python xpath循环_用python爬虫，获取旅游攻略

weixin_39589253的博客

12-09

317

今天教大家获取穷游网的城市信息，使用Python将数据写入csv文档。01涉及的网址和库1、网址如下：https://place.qyer.com/south-korea/citylist-0-0-{}2、涉及的库：requests、lxml、fake_useragent、time、csv02项目分析首先需要解决如何对下一页的网址进行请求的问题。可以点击下一页的按钮，观察...

python爬虫jsp网页_Python有了可以直接进行网页数据爬虫吗？

weixin_39593354的博客

11-25

418

先说结论，可以，但是比较难。1. Python != 爬虫Python是一门编程语言，而爬虫是一个由计算机编程语言编写制成的一个计算机程序，用于提取网络上的信息。Python可以用来编写爬虫程序，而且也有十分丰富的生态环境，且语法简单，适合新手学习。2. 可以只用Python编写爬虫吗可以，但是说实话，真的不容易。你可以用Python自带的库urllib来获取网页源码（数据），但是，你该如何分析它...

利用python爬取图片_利用Python爬取网页图片

weixin_33902301的博客

01-30

2308

你可能需要的工作环境：我们这里以sogou作为爬取的对象。首先我们进入搜狗图片http://pic.sogou.com/，进入壁纸分类(当然只是个例子Q_Q)，因为如果需要爬取某网站资料，那么就要初步的了解它…进去后就是这个啦，然后F12进入开发人员选项，笔者用的是Chrome。右键图片>>检查发现我们需要的图片src是在img标签下的，于是先试着用 Python 的 requests...

python爬取论坛付费内容_python 网络爬虫（一）爬取天涯论坛评论

weixin_39842617的博客

11-24

1287

我是一个大二的学生，也是刚接触python，接触了爬虫感觉爬虫很有趣就爬了爬天涯论坛，中途碰到了很多问题，就想把这些问题分享出来，都是些简单的问题，希望大佬们以宽容的眼光来看一个小菜鸟????，这也是我第一次写博客，代码有哪里写的不好的地方，需要改进的地方希望大家也可以帮我指出。用到的包有requests - BeautSoup我爬的是天涯论坛的财经论坛：‘http://bbs.tianya.cn/li...

python爬取下拉列表数据_网页爬虫 - python:爬取带有下拉框日期的数据？

weixin_39902508的博客

12-06

842

问题需要用到这方面的数据，单独一页一页的复制了一段时间的数据，发现很是耗时，想从深圳市环保局下载空气质量历史数据。选择日期后，页面出现一个相应的数据表格，每天有24个时间点的。需要将每一天每一个小时的数据都爬下来。页面如下：网址：http://www.szhec.gov.cn/pages/szepb/kqzl...麻烦大家解决方案使用requests.post请求上图的URLhash值在上图的位...

HTTP概览

01-15

130

1、HTTP概览 Request URl:表示请求的URLRequest Method：表示请求的方法，此处为GET。除此之外，HTTP的请求方法还有OPTION、HEAD、POST、DELETE、PUT等，而最常用的就是GET和POST方法： POST：向指定资源提交数据，请求服务器进行处理（例如提交表单或者上传文件）。数据被包含在请求本文中。这个请求可能会创建新的资源或修改现...

python爬取jsp网页_帮MM用python抓取index及一级目录下的所有符合要求的网页

weixin_39612677的博客

12-03

288

MM要学js，但是上不了网，要求我帮她把网上一个教程的相关内容抓出来，于是就有了下面的代码：import urllib2import urllibimport refrom sgmllib import SGMLParserclass URLLister(SGMLParser):def reset(self):SGMLParser.reset(self)self.urls = []def star...

爬虫jsp获取网页源码

04-28

在jsp页面文本框中输入数据，根据输入的指定网址，在页面中获取到源码，或者直接根据网址显示网页

python 获取网页表格数据_Python篇：Requests获取网页源码（爬虫基础）

weixin_39968995的博客

11-23

1789

1 下载与安装见其他教程。2 Requsts简介Requests is an Apache2 Licensed HTTP library, written inPython, for human beings.Python’s standard urllib2 module provides most ofthe HTTP capabilities you need, but the API is...

python 解析jsp_用python抓取jsp网页内容

weixin_36255837的博客

02-09

2220

有一个相当完整的事情要做，首先你需要获得你输入的邮政编码的坐标，这样你就可以在以后使用它们来发布给你搜索结果的url：urlx = 'http://www.cvs.com/store-locator/store-locator-landing.jsp'headers = {'user-agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 ...

python爬虫jsp网页_10分钟教你Python爬虫（上）-- HTML和爬虫基础

weixin_39576104的博客

11-21

271

本文来源于公众号【程序猿声】，作者向柯玮前言小玮又来啦。这次给大家带来的是爬虫系列的第一课---HTML和爬虫基础。在最开始的时候，我们需要先了解一下什么是爬虫。简单地来说呢，爬虫就是一个可以自动登陆网页获取网页信息的程序。举个例子来说，比如你想每天看到自己喜欢的新闻内容，而不是各类新闻平台给你推送的各种各样的信息，你就可以写一个爬虫去爬取这些关键词的内容，使自己能够按时获得自己感兴趣的内容，等等...

python爬虫jsp网页_这种jsp网站怎么爬虫？

weixin_39521651的博客

11-25

979

是通过这个URL加载的数据参数如下：curl 'http://cdi.chinaratings.com.cn/smartbi/vision/RMIServlet' -H 'Cookie: JSESSIONID=DA711088E94304CAEE335B698E712F40; _ga=GA1.4.1714100648.1515147029; _gid=GA1.4.190072792.1515147...

Java爬虫:解决无法抓取Ajax/JSP动态渲染页面问题

普通人一枚

09-22

1435

1.Maven依赖  <dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.11.3</version> ...

python爬虫jsp网页_Python爬虫基础之网页的结构和选择器

weixin_39759107的博客

11-25

161

网页的结构我们首先用例子来感受一下HTML的基本结构。新建一个文本文件，名称可以随便我们自己设定，把文件的后缀名改成html，内容如下：first_web.html这就是最简单的HTML实例。开头用DOCTYPE定义了文档类型，其次最外层是html标签，最后还有对应的结束标签来表示闭合，其内部是head标签和body标签，分别代表网页头和网页体，它们也需要结束标签。head标签内定义了一些页面的配...

web开发之jsp页面嵌套

葡萄战车的博客

05-04

4694

jsp页面嵌套这个在做网页中常要用到，有些通用的内容可集中放在一个页面文件中，其它要用到这些内容的页面只需要包含（引用）这个通用文件即可。这样便于维护，如果有很多网页，当通用内容需要修改时，只改一个文件就可以了，不需要每个文件单独修改。比如页脚的版权信息等内容可以放在一个叫做footer.jsp文件里，或者如天猫，淘宝等网页的搜索栏和导航栏也可以放在一个nav.jsp文件里，然后其他页面文件在...

python爬虫如何解析jsp文件_Python爬虫，使用BeautifulSoup解析页面结果

weixin_39996134的博客

12-04

1300

Python爬虫，使用BeautifulSoup可以轻松解析页面结果，下面是使用该方法爬取boss页面的职位信息：包括职位名称、薪资、地点、公司名称、公司融资情况等信息。通过这个示例可以轻松看到BeautifulSoup的使用方法。import requestsfrom bs4 import BeautifulSoupfrom middlewares import get_random_proxy...

Python反爬虫技术实战：网站防护与数据爬取

本文档探讨了基于Python的反爬虫技术在当前网络环境下的重要性和应用。随着互联网的飞速发展，信息量爆炸性增长，大量重复和有价值的信息被各种网站和平台提供，导致了流量争夺战。为了保护网站内容不被滥用，爬虫...