爬虫基础

最新推荐文章于 2023-06-09 09:58:38 发布

芯芜

最新推荐文章于 2023-06-09 09:58:38 发布

阅读量56

点赞数

文章标签：爬虫 python 开发语言

本文链接：https://blog.csdn.net/qq_58156526/article/details/123464111

版权

爬虫入门程序

首先我们调用的是 urllib2 库里面的 urlopen 方法，传入一个 URL，这个网址是百度首页，协议是 HTTP 协议，当然你也可以把 HTTP 换做 FTP,FILE,HTTPS 等等，只是代表了一种访问控制协议，
urlopen 一般接受三个参数，它的参数如下：urlopen(url, data, timeout) 第一个参数 url 即为 URL，
第二个参数 data 是访问 URL 时要传送的数据，
第三个 timeout 是设置超时时间。
第二三个参数是可以不传送的，data 默认为空 None，timeout 默认为 socket._GLOBAL_DEFAULT_TIMEOUT 第一个参数 URL 是必须要传送的，在这个例子里面我们传送了百度的 URL，执行 urlopen 方法之后，返回一个 response 对象，返回信息便保存在这里面。

import urllib2
 
#调用urllib2库的urlopen方法 第一个参数url即为URL
response = urllib2.urlopen("http://www.baidu.com")
 
#response 对象有一个 read 方法，可以返回获取到的网页内容。
print response.read()

2.爬虫程序添加data、header，然后post请求

我们引入了 urllib 库，现在我们模拟登陆 CSDN，当然上述代码可能登陆不进去，因为 CSDN 还有个流水号的字段，没有设置全，比较复杂在这里就不写上去了，在此只是说明登录的原理。一般的登录网站一般是这种写法。我们需要定义一个字典，名字为 values，参数我设置了 username 和 password，下面利用 urllib 的 urlencode 方法将字典编码，命名为 data，构建 request 时传入两个参数，url 和 data，运行程序，返回的便是 POST 后呈现的页面内容。注意上面字典的定义方式还有一种，下面的写法是等价的
有些网站不会同意程序直接用上面的方式进行访问，如果识别有问题，那么站点根本不会响应，所以为了完全模拟浏览器的工作，我们需要设置一些 Headers 的属性。首先，打开我们的浏览器，调试浏览器 F12，我用的是 Chrome，打开网络监听，示意如下，比如知乎，点登录之后，我们会发现登陆之后界面都变化了，出现一个新的界面，实质上这个页面包含了许许多多的内容，这些内容也不是一次性就加载完成的，实质上是执行了好多次请求，一般是首先请求 HTML 文件，然后加载 JS，CSS 等等，经过多次请求之后，网页的骨架和肌肉全了，整个网页的效果也就出来了。


#导入功能库库名 urllib  urllib2  
import urllib  
import urllib2  
 
#填写地址url
url = 'http://www.server.com/login'
#设置Headers 的参数
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'  
#设置data 参数是访问URL时要传送的数据
values = {'username' : 'cqc',  'password' : 'XXXX' }  
#设置Headers 的属性
headers = { 'User-Agent' : user_agent }  
#对data数据进行编码
data = urllib.urlencode(values) 
#进行请求
request = urllib2.Request(url, data, headers)  
#进行访问
response = urllib2.urlopen(request)  
#返回获取到的网页内容
page = response.read()

3.爬虫程序添加cookie

cookielib 模块的主要作用是提供可存储 cookie 的对象，以便于与 urllib2 模块配合使用来访问 Internet 资源。Cookielib 模块非常强大，我们可以利用本模块的 CookieJar 类的对象来捕获 cookie 并在后续连接请求时重新发送，比如可以实现模拟登录功能。该模块主要的对象有 CookieJar、FileCookieJar、MozillaCookieJar、LWPCookieJar。它们的关系：CookieJar —— 派生 ——>FileCookieJar —— 派生 ——->MozillaCookieJar 和 LWPCookieJar


import urllib
import urllib2
import cookielib
 
filename = 'cookie.txt'
#声明一个MozillaCookieJar对象实例来保存cookie，之后写入文件
cookie = cookielib.MozillaCookieJar(filename)
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))
postdata = urllib.urlencode({
			'stuid':'201200131012',
			'pwd':'23342321'
		})
#登录教务系统的URL
loginUrl = 'http://jwxt.sdu.edu.cn:7890/pls/wwwbks/bks_login2.login'
#模拟登录，并把cookie保存到变量
result = opener.open(loginUrl,postdata)
#保存cookie到cookie.txt中
cookie.save(ignore_discard=True, ignore_expires=True)
#利用cookie请求访问另一个网址，此网址是成绩查询网址
gradeUrl = 'http://jwxt.sdu.edu.cn:7890/pls/wwwbks/bkscjcx.curscopre'
#请求访问成绩查询网址
result = opener.open(gradeUrl)
print result.read()

4.正则表达式

Python中re模块主要功能是通过正则表达式是用来匹配处理字符串的。import re 导入该模块后，就可以使用该模块下的所有方法和属性

import re
#定义正则化规则=匹配模式，r表示原生字符串
pattern=re.compile(r"hello")
#匹配文本
# result1=re.search(pattern,"hello hello");
# # print(result1)
result1=re.match(pattern,"hello hello")
print(result1)
#点代表任意字符
pattern2=re.compile(r'a.c')
result2=re.match(pattern2,'abcdefgg')
print(result2)
#\转义字符
pattern3=re.compile(r'a\.c')
result3=re.match(pattern3,'a.cdefgg')
print(result3)
#[...]字符串中间包含 -包含 ^不包含
pattern4=re.compile(r"a[a-z,A-z]bc")
result4=re.match(pattern4,r'aabcv')
print(result4)
#\d数字 \D不是数字
pattern6=re.compile(r"a\dbc")
result6=re.match(pattern6,'a6bcdd')
print(result6)
#\s空白字符 \S不是空白字符
pattern7=re.compile(r"a\sbc")
result7=re.match(pattern7,'a bcdd')
print(result7)
#\w 单词字符[A-Z,a-z,0-9] \W非单词字符
pattern8=re.compile(r"a\wbc")
result8=re.match(pattern8,'a bcdd')
print(result8)
#匹配邮箱
pattern9=re.compile(r"\d+@\w+\.\w+")
result9=re.search(pattern9,"1231qw@qq.com")
print(result9)
#*表示0个或者无无限次
rexg=re.compile(r'\d*\w*')
res=re.search(rexg,'1dddd')
print(res)
#+前一个字符一次或者无限次
rexg=re.compile(r'\d+\w')
res=re.search(rexg,'1dddd')
print(res)
#？表示一个或者0个
rexg=re.compile(r'\d?ddd')
res=re.search(rexg,'123dddd')
res2=re.match(rexg,'123dddd')
print(res)
print(res2)
#{m}匹配前一个字符m个
rexg=re.compile(r'1\d{10}')
res=re.search(rexg,'16666666666')
print(res)
#{m,n}m至n次
rexg=re.compile(r'\d{5,12}@\w{2}\.\w{3}')
res=re.search(rexg,'1436619325@qq.com')
print(res)
#非贪恋模式
rexg=re.compile(r'\d{5,10}?')
res=re.search(rexg,'1436619325')
print(res)
#^字符串开头支持多行
rexg=re.compile(r'^abc')
res=re.search(rexg,'abc123')
print(res)
#$字符串结尾支持多行
rexg=re.compile(r'abc$')
res=re.search(rexg,'123abc')
print(res)
#\A字符串结尾支持多行
rexg=re.compile(r'\Aabc')
res=re.search(rexg,'abc123')
print(res)
#\z字符串结尾支持多行
rexg=re.compile(r'abc\Z')
res=re.search(rexg,'123abc')
print(res)
#|满足任意提交
rexg=re.compile(r'1\d{10}|d{5,12}@qq\.com')
res=re.search(rexg,'dsafsd13424234324234sssss111111111111@qq.com')
print(res)
#分组
rexg=re.compile(r'(abc){3}')
res=re.search(rexg,'abcabcabcss')
print(res)
#分组+别名
rexg=re.compile(r'(?P<tt>abc)88(?P=tt)')
res=re.search(rexg,'abcabc88abcss')
print(res)
#分组+编号
rexg=re.compile(r'(\d{3})uu\1')
res=re.search(rexg,'123uu123')
print(res)