Python爬虫基础

最新推荐文章于 2024-05-27 13:16:19 发布

Baldy_qiang

最新推荐文章于 2024-05-27 13:16:19 发布

阅读量2.2k

点赞数 2

文章标签：爬虫

本文链接：https://blog.csdn.net/Baldy_qiang/article/details/123462259

版权

本文介绍了Python爬虫的基础知识，包括爬虫入门程序、添加data和header进行POST请求、使用cookie以及正则表达式的应用。讲解了Python爬虫架构的组成部分，并通过代码示例展示了如何构造简单的爬虫程序。

摘要由CSDN通过智能技术生成

1.爬虫入门程序

一、什么是爬虫?

一段自动抓取互联网信息的程序，从互联网上抓取对于我们有价值的信息。

二、Python爬虫架构

Python 爬虫架构主要由五个部分组成，分别是调度器、URL管理器、网页下载器、网页解析器、应用程序（爬取的有价值数据）。

扒取网页和基本代码：

import urllib2

response = urllib2.urlopen("http://www.baidu.com")
print response.read()

2.爬虫程序添加data、header，然后post请求

一、添加data,header代码如下

import urllib  
import urllib2  

url = 'http://www.server.com/login'
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'  
values = {'username' : 'cqc',  'password' : 'XXXX' }  
headers = { 'User-Agent' : user_agent }  
data = urllib.urlencode(values)  
request = urllib2.Request(url, data, headers)  
response = urllib2.urlopen(request)  
page = response.read()

二、POST请求

代码如下：<

最低0.47元/天解锁文章

Baldy_qiang

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫基础

1.爬虫入门程序一、什么是爬虫?一段自动抓取互联网信息的程序，从互联网上抓取对于我们有价值的信息。二、Python爬虫架构Python 爬虫架构主要由五个部分组成，分别是调度器、URL管理器、网页下载器、网页解析器、应用程序（爬取的有价值数据）。扒取网页和基本代码：import urllib2response = urllib2.urlopen("http://www.baidu.com")print response.read()2.爬虫程序添加data...
复制链接

扫一扫