Python爬虫之代理和正则浅谈

最新推荐文章于 2024-08-20 13:04:52 发布

Sadi_

最新推荐文章于 2024-08-20 13:04:52 发布

阅读量354

点赞数 1

文章标签： python

本文链接：https://blog.csdn.net/Sadi_/article/details/104283300

版权

一、代理

	**1、代理作用**
			（1）突破自身IP 访问限制， 访问一些平时不能访问的站点。
			（2）访问一些单位或团体内部资源： 比如使用教育网内地址段免费代理服务器， 就可以用于对教育网开放的各类FTP 下载上传， 以及各类资料查询共享等服务。
			（3）提高访问速度：通常代理服务器都设置一个较大的硬盘缓冲区， 当有外界的信息通过时， 同时也将其保存到缓冲区中， 当其他用户再访问相同的信息时， 则直接由缓冲区中取屮信息传给用户， 以提高访问速度。
			4、隐藏真实IP ： 上网者也可以通过这种方法隐藏自己的IP ， 免受攻击。对于爬虫来说， 我们用代理就是为了隐藏自身IP ， 防止自身的被封锁。


	**2、代理的分类**
		**（1）根据协议区分**
				根据代理的协议， 代理可以分为如下类别。
						FTP 代理服务器：主要用于访问FTP 服务器， 一般有上传、下载以及缓存功能， 端口一般为21 、2121 等。
						HTTP 代理服务器：主要用于访问网页， 一般有内容过滤和缓存功能， 端口一般为80 、8080 、3128 等。
						SSL/TLS 代理：主要用于访问加密网站， 一般有SSL 或TLS加密功能（ 最高支持128 位加密强度） ， 端口一般为443 。
						RTSP 代理：主要用于访问Real 流媒体服务器， 一般有缓存功能， 端口一般为554 。
						Telnet 代理：主要用于telnet 远程控制（ 黑客人侵计算机时常用于隐藏身份），端口一般为23 。
						POP3/SMTP 代理：主要用于POP3/SMTP 方式收发邮件， 一般有缓存功能， 端口一般为110 / 25 。
						SOCKS 代理：只是单纯传递数据包， 不关心具体协议和用法， 所以速度快很多， 一般有缓存功能， 端口一般为1080 。SOCKS 代理协议又分为SOCKS4 和SOCKS5 ， 前者只支持TCP ，而后者支持TCP 和UDP ， 还支持各种身份验证机制、服务器端域名解析等。简单来说，SOCKS4 能做到的SOCKS5 都可以做到， 但SOCKS5 能做到的SOCKS4 不一定能做到。
		**（2）根据匿名程度区分**
				根据代理的匿名程度， 代理可以分为如下类别。
					高度匿名代理： 会将数据包原封不动地转发， 在服务端看来就好像真的是一个普通客户端在访问， 而记录的IP 是代理服务器的IPO
					普通匿名代理： 会在数据包上做一些改动， 服务端上有可能发现这是个代理服务器， 也有一定几率追查到客户端的真实伊代理服务器通常会加人的HITP 头有HTTP_VIA 和HTTP_X_FORWARDED FOR 。
					透明代理：不但改动了数据包， 还会告诉服务器客户端的真实IPO 这种代理除了能用缓存技术提高浏览速度， 能用内容过滤提高安全性之外， 并无其他显著作用， 最常见的例子是内网中的硬件防火墙。
					间谍代理：指组织或个人创建的用于记录用户传输的数据， 然后进行研究、监控等目的的代理服务器。
	**3、代理的设置**
			proxies = {
				'http':'http://114.99.11.179:9999',#http和https都可以用http作为key
			}
			response = requests.get/post(proxies = proxies)

二、三、正则表达式
（一）元字符
1、匹配边界
| ^ | 行首 |
| $ | 行尾 |
2、表示重复次数
| ? | 0次或1次 |
| * | 大于等于0次 |
| + | 大于等于1次 |
| {n,} | 大于等于n次 |
| {n,m} | 最少n次，最多m次 |
| {n} | n次 |
3、匹配文字
| [ ] | 匹配单字符,[abc]只匹配a或者b或者c, |
| \b | 单词的边界,“\b1_”可以匹配“1_23”中的“1_”，但不能匹配“21_3”中的“1_ |
| \d | 匹配单个数字,\D是非数字 |
| \w | 数字/字母/下划线,\W是非数字/字母/下划线 |
| \s | 空白字符,空格,换行,制表(tab) |
| . | 除换行符以外的任意字符 |
（二）re模块

1、re模块使用步骤
					#（1）导包
						import re
					#（2）将正则表达式编译成一个pattern对象
						pattern = re.compile(
					r'正则表达式',r代表不转义
					'匹配模式',#可以不指定，默认就按正则表达式本来的含义进行匹配。
					)

			正则匹配模式：
					| re.S | 可以匹配换行符 |
					| re.I | 忽略大小写 |
			#（3）pattern对象的方法（match，search、findall）匹配字符串。
			**match对象的属性：**
				match.group()等价于match.group(0)----返回匹配结果内容
				match.span()--匹配范围
				match.start()
				match.end()
		2、pattern对象的方法
			（1）match方法：默认从头开始匹配，只匹配一次，返回一个match对象
				Match对象 = pattern.match(
				string,#要匹配的目标字符串
				start,#要匹配目标字符串的起始位置（可选）
				end#结束位置（可选）
			)
			（2）search全文匹配，只匹配一次，返回一个match对象，匹配不到返回None
			（3）findall方法：全文匹配，匹配多次，返回一个列表，findall配合分组，他只会取分组中的内容以此放入元组中，list中存储的就是所有的元组
			（4）finditer方法：全文匹配，匹配多次，返回一个迭代器，迭代器里面存储的是match对象
						迭代器= pattern.findall(
							string,#要匹配的目标字符串
							start,#要匹配目标字符串的起始位置（可选）
							end#结束位置（可选）
						)
					什么是迭代器？	有__next__和__iter__。
						当一种数据或者内容比较多的时候，可以将其封装迭代器。---通过for循环来使用这个迭代器，可以获取其中的每一个数据。
					可迭代对象？有__iter__方法对象。
							str
							bytes
							list
							dict
							tuple
							文件流
						
				（5）split方法:安正则方法表示内容进行分割字符串，返回分割后子串list
						Pattern.split(
								String,
								Maxsplit#指定最大分隔次数，默认全部分隔，可选
							)
				(6)sub:按照正则表示的内容替换字符串
							Pattern.sub(
									repl， #替换成什么
									String,#替换什么
									Count#替换次数，可选，默认全部替换
								)--->替换后的字符串
								
							（1）repl字符串

			import re
			p = re.compile(r'(\w+) (\w+)')
			s = 'hello 123,hello 456'
			#提前用p去匹配目标串，找到能匹配出来的内容，就是替换找出来的这个内容的。
			print(p.sub(r'hello world',s))#使用‘hello world'替换'hello 123'和'hello 456'
			print(p.sub(r'\2 \1',s))#引用分组

							（2）当repl是一个函数的时候，这个函数是有要求的：
										a、必须带一个参数，这个参数其实就是提前用正则去匹配目标串，得到match对象。
										b、这个函数必须有返回值，返回值是一个字符串，这个字符串将来就作为替换的内容。	


		3、分组
			分组在正则表达式中就是用（）来表示的。一个括号就是一个分组。分组的作用主要有以下两个：
			（1）筛选特定内容
			（2）引用分组			
		4、贪婪非贪婪模式
		（1）贪婪是用*来控制，python默认是贪婪模式，所以默认所有的数量控制符都是取所能匹配的最大值。
		（2）非贪婪是用？来控制的，？放在数量控制符后面，表示数量控制符匹配最小的次数。

Sadi_

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫之代理和正则浅谈

一、代理 **1、代理作用** （1）突破自身IP 访问限制，访问一些平时不能访问的站点。（2）访问一些单位或团体内部资源：比如使用教育网内地址段免费代理服务器，就可以用于对教育网开放的各类FTP 下载上传，以及各类资料查询共享等服务。（3）提高访问速度：通常代理服务器都设置一个较大的硬盘缓冲区，当有外界的信息通过时，同时也将其保存到缓冲区中，当其他用户再访问...
复制链接

扫一扫