python爬虫
文章平均质量分 64
陆岑卿
我是一名在IT届,缓慢爬行的一只蜗牛。
展开
-
一起学python爬虫第七天
今天给大家分享代理服务器和json数据。 代理服务器就 像我们生活中的中介一样,将自己的需求传递给另一个人。 一、代理设置 在爬虫的过程中,我们经常会遇见很多网站采取了防爬取技术,或者说因为自己采集网 站信息的强度和采集速度太大,给对方服务器带去了太多的压力。 如果你一直用同一个代理 ip 爬取这个网页,很有可能 ip 会被禁止访问网页,所以基本上做爬虫的都躲不过去 ip 的问题。 (一)代理基本原理 代理实际上指的就是代理服务器,英文叫作 proxy server,它的功能是代理网络用户去取得网络信息。形原创 2021-01-08 19:35:57 · 246 阅读 · 1 评论 -
一起学python爬虫第六天
上一篇文章我们了解到了cookie和session,今天我们通过两个案例,对比一下!!! 一、cookie 将浏览器中的cookie信息封装到请求头中 #需求:将个人首页保存到本地 import requests # 请求头 headers = { "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/5原创 2021-01-05 19:27:51 · 161 阅读 · 3 评论 -
一起学python爬虫第五天
今天将一下cookie和session 什么是 cookie 和 session? cookie 是网站用来辨别用户身份,进行会话跟踪,存储在本地终端上的数据。 session(会话)本来含义是指有始有终的一系列动作和消息。在 web 中,session 主要用来在服务器端存储特定用户对象会话所需要的信息。 cookie 和 session 产生的原因: http 协议是一个无状态协议,在特定操作的时候,需要保存信息,进而产生了 cookie和 session cookie 原理: cookie 由服务器原创 2020-12-28 21:35:47 · 149 阅读 · 0 评论 -
一起学python爬虫第四天
今天我们写一爬取新浪新闻的小项目。 爬取一个数据的时候我们第一步肯定就是要找到这个网址,比如我们去找朋友去玩,首先肯定得知道这个朋友家的地址吧。 http://search.sina.com.cn/ url双手奉上 进入网页按下F12,第一次去朋友家肯定得需要确认一下是不是朋友 如果不是我们就继续找,如果是就是拜访朋友 import requests response = requests.get(url='http://search.sina.com.cn/') print(response.te原创 2020-12-24 21:14:26 · 153 阅读 · 1 评论