python爬虫-第一步，获取页面

最新推荐文章于 2023-01-05 11:38:25 发布

writeing

最新推荐文章于 2023-01-05 11:38:25 发布

阅读量704

点赞数

分类专栏： python 文章标签： python2 爬虫 requests urllib2

本文链接：https://blog.csdn.net/u010650281/article/details/49402585

版权

python 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

什么都不想写了，现在python3的教程太少了。还是转头学2去的
-2015-10-25 11:54

直到现在这个发表，已经过去半年了，
python的爬虫也学习了很多，做了一点点小东西玩

python爬虫的第一步
获取页面。
目前我所掌握的获取页面的方式有4个，就是最基本的获取，不涉及都文件和cookies

urllib.urlopen()
urllib2.urlopen()
urllib2.Request()
requests.get()
第一个是

import urllib
urllib.urlopen(url).read()
#这里特别提一下
urllib.urlreleate(url,path)#可以直接保存网页内容到一个地方

第二个是

import urllib2
urllib2.urlopen(url).read()

第三个是

from urllib2 import Request
urllib2.Requests(url)

第四个是

import requests
requests.get(url).content
#如果不用comtent可以这样
requests.get(url).text

以上这四种方式是可以获取不需要cookie和header的网站的内容的，
获取下来之后用os库里面的文本方式保存，或者是上面介绍的urllib的方式保存到本地进行分析是一个很好的方法

下一节讲解怎么分析得到的网页用到三种方式

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

writeing

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

用Python手把手教你实现一个爬虫（含前端界面）

软贱开发攻城狮

12-04

1万+

随着互联网的飞速发展，再加上科技圈的技术翻天覆地的革新，互联网上每天都会产生海量的数据，这些数据对于企业和个人都具有重要的价值。作为开发者对数据处理并不陌生，关于使用python应该也不会陌生，因为现在python语言已经在初中阶段就开始普及了，关于python的主要功能之一的爬虫想必也不陌生，其实爬虫（也称网络蜘蛛）是一种能够自动抓取网络数据的工具，它可以帮助我们从网络上获取所需的信息。

Python爬虫教程-13-爬虫使用cookie爬取登录后的页面(人人网)（下）

肖朋伟

08-16

1万+

Python爬虫教程-13-爬虫使用cookie爬取登录后的页面（下）自动使用cookie的方法，告别手动拷贝cookie http模块包含一些关于cookie的模块，通过他们我们可以自动的使用cookie CookieJar 管理存储Cookie，向传出的http请求添加cookie 这里Cookie存储在内存中，CookieJar实例回收后cookie将消失 FileCookieJ...

参与评论您还未登录，请先登录后发表或查看评论

Python爬虫教程-12-爬虫使用cookie爬取登录后的页面(人人网)（上）

肖朋伟

08-16

1万+

Python爬虫教程-12-爬虫使用cookie（上） ·爬虫关于cookie和session，由于http协议无记忆性，比如说登录淘宝网站的浏览记录，下次打开是不能直接记忆下来的，后来就有了cookie和session机制。 Python爬虫爬取登录后的页面所以怎样让爬虫使用验证用户身份信息的cookie呢，换句话说，怎样在使用爬虫的时候爬取已经登录的页面呢，这就是本篇的重点 cook...

python爬虫：做一个界面爬虫小软件

Python热爱者的博客

10-12

3075

任务目标： 1.抓取不同类型的图片 2.编写一个GUI界面爬虫程序，打包成exe重新文件 3.遇到的难点 1.分析如何抓取不同类型的图片首先打开网站，可以看到有如下6个类型的菜单点击不同菜单，发现URL显示如下大胸妹：https：//www.buxiuse.com/？cid = 2 小翘臀：https：//www.buxiuse.com/？cid = 6 可以看到每个类型图片对应不同的c...

python漫画爬虫+GUI界面开发

Ericam_

02-18

3348

注：本文只讲思路，非实战教程一.作品演示下载好的漫画以pdf形式存放

python网络爬虫-入门基础学习爬虫原理.zip

最新发布

05-18

这份"python网络爬虫-入门基础学习.docx"教程将引导你逐步掌握这些基础知识，让你在数据挖掘的道路上迈出坚实的第一步。记得在实践中不断尝试，理解和适应各种复杂的网页结构，你将成为一名熟练的Python爬虫开发者。

Python-一个简单的Python爬虫

08-10

URL管理器是爬虫的第一步，它的主要任务是存储和管理待爬取的URL列表。它负责跟踪哪些URL已经被访问过，哪些还没有，防止重复爬取，并按照一定的策略（如深度优先或广度优先）来决定下一个要爬取的URL。可以使用...

Python爬虫 - 简单的完整小说爬取

x_hhhhhh的博客

06-29

1万+

Python 爬虫爬取完整小说文章目录Python 爬虫爬取完整小说前言一、基础与环境1.1 Web元素审查元素1.2 Requests、lxml库的安装（1）Requests库和lxml库安装（2）Requests库简单介绍（3）lxml库简单介绍二、使用步骤分为目录爬取，小说章节爬取，完整小说爬取2.1 目录爬取2.1.1 使用Requests获取页面信息2.1.2 使用lxml中的规则进行信息提取2.1.3 使用流的形式写入到文件中2.2 小说章节爬取2.2.1 读取 title 文件获得 url

python爬虫--根据身份证号码获取户籍地、出生年月等信息

qq_22592457的博客

07-19

1万+

一、背景工作中偶尔会遇到这样的情况，给你一堆客户身份证号码，然后要你把对应的性别、生日、户籍地等信息弄出来。最常用的方法就是用excel表套公式，这个方式如果用来取性别、生日这些信息的话问题不大，毕竟这些规则还好梳理，但是如果想要弄户籍地（如：广东省广州市荔湾区），操作难度极大。首先，你要弄到相应的行政区划代码，如广东省广州市天河区是440106，要注意，这些区划代码因为行政区划的调整...

python百度爬虫_Python爬虫 - 简单抓取百度指数

weixin_34207880的博客

12-29

1825

前言有点忙，没空写东西，这是之前写的，加了些配图而已这次要爬的网站是百度指数正文一、分析打开网站(百度指数)，呈现出来是这样的如果搜索的话就需要登陆了，如果没有什么特别频繁的请求的话，直接登陆复制Cookie就完事了这里以酷安为例搜索这一栏是选择时间范围的，拖拽它能将范围选择更广我将其拖拽至2011，调试窗口可以看到请求，是个GET请求，参数有四个，除了 area 其他的都很好理解切换到 Pr...

python爬虫步骤-python爬虫步骤（新手备学）爬虫编程。

q6q6q的专栏

10-28

424

Python爬虫是用Python编程语言实现的网络爬虫，主要用于网络数据的抓取和处理，相比于其他语言，Python是一门非常适合开发网络爬虫的编程语言，大量内置包，可以CPython爬虫可以做的事情很多，如搜索引擎、采集数据、广告过滤等，Python爬虫还可以用于数据分析，在数据的抓取方面可以作用巨大！Python爬虫架构组成1. URL管理器：管理待爬取的url集合和已爬取的url集合，传送待爬...

Python爬虫的用途

热门推荐

lmseo5hy的博客

08-16

3万+

Python爬虫是用Python编程语言实现的网络爬虫，主要用于网络数据的抓取和处理，相比于其他语言，Python是一门非常适合开发网络爬虫的编程语言，大量内置包，可以轻松实现网络爬虫功能。 Python爬虫可以做的事情很多，如搜索引擎、采集数据、广告过滤等，Python爬虫还可以用于数据分析，在数据的抓取方面可以作用巨大！ Python爬虫架构组成 1. URL管理器：管理待爬取的url集...

Python将网页代码写入文件报错

Blog of Mark

02-09

635

Python将网页代码写入文件原始代码 import requests res = requests.get('https://localprod.pandateacher.com/python-manuscript/crawler-html/spider-men5.0.html') code = res.text file = open('abc.txt','w') file.write(c...

python爬虫如何从一个页面进入另一个页面-爬虫入门（一）——如何打开一个网页...

weixin_37988176的博客

11-01

2042

做了一段时间自然语言处理的项目，体会到了爬虫的乐趣，甚至一度产生了学好爬虫真的可以为所欲为的美妙错觉。因此决定开个坑，记录自己的爬虫学习过程，也督促自己学习更高深的爬虫姿势。目前我只用到了最基础的爬虫知识，在此进行整理记录，以便在老年痴呆不定时记忆清零时可以快速回忆起来。本文介绍在python下，如何利用爬虫实现最简单的网页获取，包括data参数、headers参数的设置，以及cookie的使用。...

Python为什么叫爬虫？python爬虫定义

xiangxueerfei的博客

01-05

2953

python为什么叫爬虫？爬虫一般是指网络资源的抓取，由于python的脚本特性，易于配置对字符的处理非常灵活，python有丰富的网络抓取模块，因此两者经常联系在一起python就被叫作爬虫。爬虫可以抓取某个网站或者某个应用的内容提取有用的价值信息。还可以模拟用户在浏览器或者app应用上的操作行为，实现程序自动化。Python作为一门编程语言而言纯粹的自由软件，以简洁清晰的语法和强制使用空白符进行语句缩进的特点从而深受程序员的喜爱。用不同编程语言完成一个任务：c语言一共要写1000行代码；

python为什么叫爬虫-python为什么叫网络爬虫

q6q6q的专栏

10-28

2303

爬虫可以抓取网站或应用程序的内容并提取有用的价值，它还可以模拟用户在浏览器或应用程序上的操作，以实现自动化程序。今天小编主要给大家分享python为什么叫网络爬虫，希望对你们有帮助!一、你知道什么是python爬虫吗?爬虫，也就是网络爬虫，可以理解为蜘蛛在网上爬行。互联网被比作一张大网，爬虫是一只在网上爬行的蜘蛛。如果它遇到猎物(需要的资源)，它就会将其抓取下来。例如，它抓取一个网页，在这个网页上...

python爬虫获取简单页面

qq_50983302的博客

03-14

2374

我们讲过开发者工具可以截取B/S交互的数据包，那么这节我们用python3抓取其截取的数据包目的：通过python3抓取百度的网页工具：pycharm(下载地址：https://www.jetbrains.com/pycharm/download/#section=windows) 安装网络库requests requests是一个相比于urllib与urllib3更加强大的网络库，它可以发送请求并接收服务端的响应首先打开pycharm创建一个新项目在settings看看设置 ...

python爬虫什么意思-python爬虫什么意思

q6q6q的专栏

10-28

1471

python爬虫指的是Python网络爬虫，又被称为网页蜘蛛，网络机器人，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本，另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。简单来说互联网是由一个个站点和网络设备组成的大网，我们通过浏览器访问站点，站点把HTML、JS、CSS代码返回给浏览器，这些代码经过浏览器解析、渲染，将丰富多彩的网页呈现我们眼前如果我们把互联网比作一张大的蜘...

Python 爬虫速成教程，还有35个实战项目送给你

黑马程序员官方博客

11-14

2万+

前两天，有个小伙伴问了黑马哥这样一个问题：Python可以爬到视频网站上vip才能看到的视频吗？听到这个问题，你是什么反应？我当时的内心：开玩笑，还有Python爬不到的东西吗？今天黑马哥就给大家总结了一些Python爬取各种东西的案例，让你看看Python到底有多强大，而且黑马哥还给大家准备了源码或者是项目地址哦，是不是对我的爱又多了几分。既然要在网络上爬取资源，首先要了解下基本的爬虫工...

Python爬虫基础：requests库与数据解析入门

相反，客户端渲染则是分两步进行，首次请求仅获取HTML骨架，第二次请求才加载数据，这导致在源代码中无法直接看到数据。在执行网络请求时，请求头扮演着至关重要的角色。其中，User-Agent字段用于标识发出请求的...