python爬虫实践之网页抓取

最新推荐文章于 2024-05-02 21:47:38 发布

figo829

最新推荐文章于 2024-05-02 21:47:38 发布

阅读量4.9k

点赞数 1

分类专栏： python 编程语言爬虫文章标签： python 编程语言爬虫

本文链接：https://blog.csdn.net/figo829/article/details/18155925

版权

本文介绍了Python爬虫的基础实践，包括如何使用requests库抓取网页内容，以及如何伪装成浏览器进行访问。

摘要由CSDN通过智能技术生成

python自带了urllib和urllib2模块，以及第三方的requests库来抓取网页，这里我们使用easy_install包管理工具下载requests库，BeautifulSoup库，在CMD命令行下，切换到easy_install的目录，运行命令easy_install 包名称。

easy_install requests

安装好requests包之后，我们就可以选择使用urllib，urllib2或requests库来抓取网页了

1.网页内容的抓取

#! /usr/bin/env python
#coding:utf-8
import urllib
import urllib2
import requests
import sys

url = 'http://www.csdn.net'

def urllib2Test():
	req = urllib2.Request(url)
	response = urllib2.urlopen(req)
	thePage = response.read()

def requestsTest():
	r = requests.get(url)
	r.status_code
	r.content
	r.headers

def urllib2TestEx(url):
	req = urllib2.Request(url)
	try:
		response = urllib2.urlopen(req)
		content = response.read()
	except urllib2.URLError,e:
		print e.reason

def urlhttperror(url):
	req = urllib2.Request(url)
	try:urllib2.urlopen(req)

	except urllib2.HTTPError,e:
		print e.