python爬虫基础

普信男1

已于 2022-03-13 22:36:44 修改

阅读量59

点赞数

文章标签：爬虫

于 2022-03-13 22:13:26 首次发布

本文链接：https://blog.csdn.net/shenbanglin/article/details/123467478

版权

1.爬虫入门程序

首先我们调用的是 urllib2 库里面的 urlopen 方法，传入一个 URL，这个网址是百度首页，协议是 HTTP 协议，当然你也可以把 HTTP 换做 FTP,FILE,HTTPS 等等，只是代表了一种访问控制协议，
urlopen 一般接受三个参数，它的参数如下：urlopen(url, data, timeout) 第一个参数 url 即为 URL，
第二个参数 data 是访问 URL 时要传送的数据，
第三个 timeout 是设置超时时间。
第二三个参数是可以不传送的，data 默认为空 None，timeout 默认为 socket._GLOBAL_DEFAULT_TIMEOUT 第一个参数 URL 是必须要传送的，在这个例子里面我们传送了百度的 URL，执行 urlopen 方法之后，返回一个 response 对象，返回信息便保存在这里面。

2.爬虫程序添加data、header，然后post请求

#填写地址url
url = ‘http://www.server.com/login’
#设置Headers 的参数
user_agent = ‘Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)’
#设置data 参数是访问URL时要传送的数据
values = {‘username’ : ‘cqc’, ‘password’ : ‘XXXX’ }
#设置Headers 的属性
headers = { ‘User-Agent’ : user_agent }
#对data数据进行编码
data = urllib.urlencode(values)
#进行请求
request = urllib2.Request(url, data, headers)
#进行访问
response = urllib2.urlopen(request)
#返回获取到的网页内容
page = response.read()

3.爬虫程序添加cookie

cookielib 模块的主要作用是提供可存储 cookie 的对象，以便于与 urllib2 模块配合使用来访问 Internet 资源。Cookielib 模块非常强大，我们可以利用本模块的 CookieJar 类的对象来捕获 cookie 并在后续连接请求时重新发送，比如可以实现模拟登录功能。该模块主要的对象有 CookieJar、FileCookieJar、MozillaCookieJar、LWPCookieJar。它们的关系：CookieJar —— 派生 ——>FileCookieJar —— 派生 ——->MozillaCookieJar 和 LWPCookieJar
1
import urllib
import urllib2
import cookielib

filename = ‘cookie.txt’

4.正则表达式

Python中re模块主要功能是通过正则表达式是用来匹配处理字符串的。import re 导入该模块后，就可以使用该模块下的所有方法和属性。

普信男1

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫基础

Python 爬虫架构Python 爬虫架构主要由五个部分组成，分别是调度器、URL管理器、网页下载器、网页解析器、应用程序（爬取的有价值数据）。调度器：相当于一台电脑的CPU，主要负责调度URL管理器、下载器、解析器之间的协调工作。URL管理器：包括待爬取的URL地址和已爬取的URL地址，防止重复抓取URL和循环抓取URL，实现URL管理器主要用三种方式，通过内存、数据库、缓存数据库来实现。网页下载器：通过传入一个URL地址来下载网页，将网页转换成一个字符串，网页下载器有urllib2（Py
复制链接

扫一扫