写这篇文章的时候 内心还是比较焦灼的 re 看的头疼 只能看看python 来维持一下生活 然后在网上找了一些视频看 有了一些心得 就写下来 emmm
#创建请求对象
request = urllib.request.Request(url)
#动态的去添加head的信息
request.add_header("User-Agent","Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36")
然后 关于 urllib 的 库也没有什么好解释的 好久没有玩过python 爬虫了 都有一些不熟悉了
不过 今天get 到了一个新的知识 就是关于代理ip
大家都知道 其实关于爬虫也是有对抗的 有些数据 人家并不想让你爬 如果发现 你的ip 响应的频繁 就会把你的ip 限制 甚至 直接 封掉 那么 我们可以 用代理ip 设置多种ip 随机 用 ip代理 然去取爬虫 来达到我们的反反爬虫
for proxy in proxy_list:
print(proxy)
#利用遍历出来的ip创建处理器
proxy_handler = urllib.request.ProxyHandler(proxy)
#创建opener
opener = urllib.request.build_opener(proxy_handler)
#拿着代理ip去发送请求
response = opener.open(url)
data = response.read().decode("utf-8")
这样 就能够 代理ip 然后就能 完成我们想要的目标
其它关于 什么基础的啊概念 我也懒得 说了 都太基础了
只是感觉这个 思路比较新奇 如果 多线程+ip代理
估计 真的 能够实现大的方向
但是 线程处理 先不说 也没有 很多的ip 能够让我们使用 。。。