Python爬虫之代理和正则浅谈

一、代理

	**1、代理作用**
			(1)突破自身IP 访问限制, 访问一些平时不能访问的站点。
			(2)访问一些单位或团体内部资源: 比如使用教育网内地址段免费代理服务器, 就可以用于对教育网开放的各类FTP 下载上传, 以及各类资料查询共享等服务。
			(3)提高访问速度:通常代理服务器都设置一个较大的硬盘缓冲区, 当有外界的信息通过时, 同时也将其保存到缓冲区中, 当其他用户再访问相同的信息时, 则直接由缓冲区中取屮信息传给用户, 以提高访问速度。
			4、隐藏真实IP : 上网者也可以通过这种方法隐藏自己的IP , 免受攻击。对于爬虫来说, 我们用代理就是为了隐藏自身IP , 防止自身的被封锁。


	**2、代理的分类**
		**(1)根据协议区分**
				根据代理的协议, 代理可以分为如下类别。
						FTP 代理服务器:主要用于访问FTP 服务器, 一般有上传、下载以及缓存功能, 端口一般为21 、2121 等。
						HTTP 代理服务器:主要用于访问网页, 一般有内容过滤和缓存功能, 端口一般为80 、8080 、3128 等。
						SSL/TLS 代理:主要用于访问加密网站, 一般有SSL 或TLS加密功能( 最高支持128 位加密强度) , 端口一般为443 。
						RTSP 代理:主要用于访问Real 流媒体服务器, 一般有缓存功能, 端口一般为554 。
						Telnet 代理:主要用于telnet 远程控制( 黑客人侵计算机时常用于隐藏身份),端口一般为23 。
						POP3/SMTP 代理:主要用于POP3/SMTP 方式收发邮件, 一般有缓存功能, 端口一般为110 / 25 。
						SOCKS 代理:只是单纯传递数据包, 不关心具体协议和用法, 所以速度快很多, 一般有缓存功能, 端口一般为1080 。SOCKS 代理协议又分为SOCKS4 和SOCKS5 , 前者只支持TCP ,而后者支持TCP 和UDP , 还支持各种身份验证机制、服务器端域名解析等。简单来说,SOCKS4 能做到的SOCKS5 都可以做到, 但SOCKS5 能做到的SOCKS4 不一定能做到。
		**(2)根据匿名程度区分**
				根据代理的匿名程度, 代理可以分为如下类别。
					高度匿名代理: 会将数据包原封不动地转发, 在服务端看来就好像真的是一个普通客户端在访问, 而记录的IP 是代理服务器的IPO
					普通匿名代理: 会在数据包上做一些改动, 服务端上有可能发现这是个代理服务器, 也有一定几率追查到客户端的真实伊代理服务器通常会加人的HITP 头有HTTP_VIA 和HTTP_X_FORWARDED FOR 。
					透明代理:不但改动了数据包, 还会告诉服务器客户端的真实IPO 这种代理除了能用缓存技术提高浏览速度, 能用内容过滤提高安全性之外, 并无其他显著作用, 最常见的例子是内网中的硬件防火墙。
					间谍代理:指组织或个人创建的用于记录用户传输的数据, 然后进行研究、监控等目的的代理服务器。
	**3、代理的设置**
			proxies = {
				'http':'http://114.99.11.179:9999',#http和https都可以用http作为key
			}
			response = requests.get/post(proxies = proxies)

二、三、正则表达式
(一)元字符
1、匹配边界
| ^ | 行首 |
| $ | 行尾 |
2、表示重复次数
| ? | 0次或1次 |
| * | 大于等于0次 |
| + | 大于等于1次 |
| {n,} | 大于等于n次 |
| {n,m} | 最少n次,最多m次 |
| {n} | n次 |
3、匹配文字
| [ ] | 匹配单字符,[abc]只匹配a或者b或者c, |
| \b | 单词的边界,“\b1_”可以匹配“1_23”中的“1_”,但不能匹配“21_3”中的“1_ |
| \d | 匹配单个数字,\D是非数字 |
| \w | 数字/字母/下划线,\W是非数字/字母/下划线 |
| \s | 空白字符,空格,换行,制表(tab) |
| . | 除换行符以外的任意字符 |
(二)re模块

1、re模块使用步骤
					#(1)导包
						import re
					#(2)将正则表达式编译成一个pattern对象
						pattern = re.compile(
					r'正则表达式',r代表不转义
					'匹配模式',#可以不指定,默认就按正则表达式本来的含义进行匹配。
					)
			正则匹配模式:
					| re.S | 可以匹配换行符 |
					| re.I | 忽略大小写 |
			#(3)pattern对象的方法(match,search、findall)匹配字符串。
			**match对象的属性:**
				match.group()等价于match.group(0)----返回匹配结果内容
				match.span()--匹配范围
				match.start()
				match.end()
		2、pattern对象的方法
			(1)match方法:默认从头开始匹配,只匹配一次,返回一个match对象
				Match对象 = pattern.match(
				string,#要匹配的目标字符串
				start,#要匹配目标字符串的起始位置(可选)
				end#结束位置(可选)
			)
			(2)search全文匹配,只匹配一次,返回一个match对象,匹配不到返回None
			(3)findall方法:全文匹配,匹配多次,返回一个列表,findall配合分组,他只会取分组中的内容以此放入元组中,list中存储的就是所有的元组
			(4)finditer方法:全文匹配,匹配多次,返回一个迭代器,迭代器里面存储的是match对象
						迭代器= pattern.findall(
							string,#要匹配的目标字符串
							start,#要匹配目标字符串的起始位置(可选)
							end#结束位置(可选)
						)
					什么是迭代器?	有__next__和__iter__。
						当一种数据或者内容比较多的时候,可以将其封装迭代器。---通过for循环来使用这个迭代器,可以获取其中的每一个数据。
					可迭代对象?有__iter__方法对象。
							str
							bytes
							list
							dict
							tuple
							文件流
						
				(5)split方法:安正则方法表示内容进行分割字符串,返回分割后子串list
						Pattern.split(
								String,
								Maxsplit#指定最大分隔次数,默认全部分隔,可选
							)
				(6)sub:按照正则表示的内容替换字符串
							Pattern.sub(
									repl, #替换成什么
									String,#替换什么
									Count#替换次数,可选,默认全部替换
								)--->替换后的字符串
								
							(1)repl字符串
			import re
			p = re.compile(r'(\w+) (\w+)')
			s = 'hello 123,hello 456'
			#提前用p去匹配目标串,找到能匹配出来的内容,就是替换找出来的这个内容的。
			print(p.sub(r'hello world',s))#使用‘hello world'替换'hello 123'和'hello 456'
			print(p.sub(r'\2 \1',s))#引用分组
							(2)当repl是一个函数的时候,这个函数是有要求的:
										a、必须带一个参数,这个参数其实就是提前用正则去匹配目标串,得到match对象。
										b、这个函数必须有返回值,返回值是一个字符串,这个字符串将来就作为替换的内容。	


		3、分组
			分组在正则表达式中就是用()来表示的。一个括号就是一个分组。分组的作用主要有以下两个:
			(1)筛选特定内容
			(2)引用分组			
		4、贪婪非贪婪模式
		(1)贪婪是用*来控制,python默认是贪婪模式,所以默认所有的数量控制符都是取所能匹配的最大值。
		(2)非贪婪是用?来控制的,?放在数量控制符后面,表示数量控制符匹配最小的次数。
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值