python爬虫自学网站_Python爬虫学习——获取网页

最新推荐文章于 2024-09-27 17:44:01 发布

咯嗯

最新推荐文章于 2024-09-27 17:44:01 发布

阅读量397

点赞数 1

文章标签： python爬虫自学网站

本文链接：https://blog.csdn.net/weixin_35988038/article/details/113672774

版权

通过GET请求获取返回的网页，其中加入了User-agent信息，不然会抛出"HTTP Error 403: Forbidden"异常，

因为有些网站为了防止这种没有User-agent信息的访问，会验证请求信息中的UserAgent(它的信息包括硬件平台、系统软件、应用软件和用户个人偏好)，如果UserAgent存在异常或者是不存在,那么这次请求将会被拒绝。

#coding=utf-8

import urllib2

import re

#使用Python2.7

def getHtml(url,user_agent="wswp",num_retries=2):#下载网页，如果下载失败重新下载两次

print '开始下载网页：',url

headers = {"User-agent":user_agent}

#headers = {

# 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; rv:24.0) Gecko/20100101 Firefox/24.0',

# 'cookie': cookie

request = urllib2.Request(url,headers=headers)

try:

html = urllib2.urlopen(request).read()#GET请求

except urllib2.URLError as e:

print "下载失败：",e.reason

html = None

if num_retries > 0:

if hasattr(e,'code') and 500 <= e.code < 600:

return getHtml(url,num_retries-1)

return html

if __name__ == '__main__':

html = getHtml("http://www.baidu.com")

print html

print "结束"

...

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

咯嗯

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Python爬虫自学系列（七） -- 项目实战篇（一）

看，未来的博客

01-27

5913

文章目录前言流程第一步，打开网站第二步，分析网站分析json包获取数据并简单处理前言之所以标题不说是爬什么网，主要是怕大家看了标题以为是之前那篇的返稿。其实不是啊。这次爬的是腾讯的暑期实习招聘。上次爬完之后放那边也没去更新过，今天再上去看，发现人家已经改版了。不知道为啥啊，就喜欢爬他们家的，还有爬CSDN的。那，这次改版，数据是好爬了呢，还是难爬了呢？拭目以待啊（好爬我就不写了，难爬我就写不了）流程第一步，打开网站这不废话嘛，不打开网站怎么分析嘛。腾讯暑期实习不知道是不是我网络不太行.

Python爬虫入门教程（非常详细）_python爬虫自学

04-27

1531

设k值为3，即每抓取3个页面后，重新计算一次PageRank值。

参与评论您还未登录，请先登录后发表或查看评论

python爬虫教程-Python爬虫全集

q6q6q的专栏

10-28

716

一、爬虫入门网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。运用python3.6中的urllib.request1.快速爬取一个网页（1）get请求方式#!/usr/bin/env python#-*- coding: UTF-8 -*-#Author:Du Feiimporturllib.reque...

你必须知道的17个免费学习Python的网站【小白福音】

最新发布

2401_87642495的博客

09-27

3760

经常有同学问我，Python应该样学，有没有什么学习网站，学习资料啥的。今天攀哥就整理出了一些Python常用的学习网站，针对小白和新手，我个人推荐菜鸟教程和w3school，其他网站等我们基础打牢了，再去涉足会好一些。

python爬虫学习网址

Roninwz的博客

09-02

579

1.静觅-崔庆才的个人博客http://cuiqingcai.com/1052.html

爬虫python自学网站_Python爬虫学习9-非登录爬取网站

weixin_39669147的博客

12-03

162

以http://blog.jobbole.com/all-posts/页面为例1、提取列表页获取一个列表页首页获得页面文章列表，使用css选择器进行：article_list = response.css('#archive .floated-thumb .post-thumb a::attr(href)').extract()Paste_Image.png在文件中引入Request库from s...

Pyton爬虫学习网站

m0_37786014的博客

05-13

849

爬虫学习网站（转载） http://cuiqingcai.com/4352.html 反爬虫学习网站（转载） http://m.blog.csdn.net/c406495762/article/details/72793480

2301_82242014的博客

05-01

1414

我们在看视频学习的时候，不能光动眼动脑不动手，比较科学的学习方法是在理解之后运用它们，这时候练手项目就很适合了，只是里面的项目比较多，水平也是参差不齐，大家可以挑自己能做的项目去练练。基本上主流的和经典的都有，这里我就不放图了，版权问题，个人看看是没有问题的。

Python 项目爬虫自学

01-01

Python 开源项目之「自学编程之路」，保姆级教程：AI实验室、宝藏视频、数据结构、学习指南、机器学习实战、深度学习实战、网络爬虫、大厂面经、程序源代码：包括Python代码和相关脚本。这些代码展示了如何使用...

python爬虫实战——小红书_python小红书爬虫

2401_84010224的博客

04-21

970

每一个线程遍历自己分配到的作品列表，进行逐项处理 def thread_task(ul): for item in ul: href = item[0] is_pictures = (True if item[1] == 0 else False) res = work_task(href, is_pictures) if res == 0: # 被阻止正常访问 break 处理每一项作品 def work_task(href, is_pictures): # href 中最后的一个路径参数就

Python爬虫：爬取需要登录的网站（附爬虫视频教程）_python 爬虫如何爬取需要登录

m0_61067876的博客

04-30

1920

要访问的目标页面# 代理服务器(产品官网 www.16yun.cn)# 代理隧道验证信息# 设置 http和https访问都是用HTTP代理# 访问三次网站，使用相同的Session(keep-alive)，均能够保持相同的外网IP# 设置cookieresponse1 = requests.get(url_login) # 未登陆response2 = requests_session.get(url_login) # 已登陆，因为之前拿到了Response Cookie！

python爬虫的学习

TotoroChinchilla的博客

12-02

1320

Python爬虫学习 1、什么是爬虫？网络爬虫是可以按照一定规则，根据用户需求，自动抓取互联网上用户所需要的信息的程序或脚本。 2、爬虫的作用？能通过浏览器访问的数据都能通过爬虫获取。 3、爬虫本质？模仿浏览器打开网址，获取网址中我们需要的数据。 Python对网页访问首先需要引入urllib.request urllib中有 urllib.request.urlopen(str) 方法用于打开网页并返回一个对象，调用这个对象的read()方法后能直接获得网页的源代码，内容与浏览器右键查看源码的内容一

几个非常适合新手练习python爬虫的网页，总有一款能搞定！

weixin_33967071的博客

06-06

5168

2019独角兽企业重金招聘Python工程师标准>>> ...

Python爬虫爬取美剧网站

哲洛不闹的专栏

09-06

797

一直有爱看美剧的习惯，一方面锻炼一下英语听力，一方面打发一下时间。之前是能在视频网站上面在线看的，可是自从广电总局的限制令之后，进口的美剧英剧等貌似就不在像以前一样同步更...

python免费自学爬虫_看这里！免费python网络爬虫一站通

weixin_39594312的博客

02-20

317

免费python网络爬虫一站通孩子学习编程对提高孩子的专注能力有很大帮助。在编程的世界里，你多输入一个标点符号，都会造成程序大乱，无法运行，更别说在逻辑分析上出现问题。面对学习中的错误，孩子容易得过且过，而在编程世界里无法养成这种习惯，这对孩子今后的学习、考试，甚至未来的工作与生活都有很大影响。Kodable的简易课程，主要面向幼儿园到五年级的学生。K-3的课程主要是基础课程，四年级和五年级的学习...

正则表达式

傅里叶变不出的博客

04-11

622

1. 正则表达式概述正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的特定字符和这些特定字符的组合组成一个规则字符串，这个规则字符串用来表达对字符串的一种过滤逻辑。 2. 常用正则字符常见的正则字符及其含义模式描述模式描述 . 匹配任意字符，除了换行符 \s 匹配空白字符 * 匹配前一个字符0次或多次 \S 匹配任何非空白字符 + 匹配前一个字符1次或多...

python爬虫自学网站_python爬虫学习爬取幽默笑话网站

weixin_39543835的博客

11-27

173

这篇文章主要介绍了python爬虫爬取幽默笑话网站,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下爬取网站为：http://xiaohua.zol.com.cn/youmo/查看网页机构，爬取笑话内容时存在如下问题：1、每页需要进入“查看更多”链接下面网页进行进一步爬取内容每页查看更多链接内容比较多，多任务进行，这里采用线程池的方式，可以有效地...

python爬虫练习网站，墙裂安利这个可以练习爬虫的网站

m0_59162248的博客

12-05

285

python爬虫练习网站，墙裂安利这个可以练习爬虫的网站今天无意间发现的一个大佬做的网站，http://www.glidedsky.com/，需要注册登录后跟着大佬提供的题目做，刚刚完成了第一个题目，以为能手到擒来，没想到有csrf-...

爬虫学习，抓取猫眼电影数据

数通产品、IOT技术讨论

10-05

384

#_*_ codeing: utf-8 _*_ import json import os import requests from requests.exceptions import RequestException import re from bs4 import BeautifulSoup import random import urllib import urllib.reque...

python爬虫自学

09-13

对于学习Python爬虫的资料，我推荐以下几个资源： 1. 官方文档：Python官方文档中有关于爬虫模块和库的详细说明，包括最新的更新和用法。你可以访问官方网站（https://docs.python.org/3/library/）查看相关内容。 ...