inprivate浏览是什么意思_被知乎反杀,是一种什么体验?

7987ecacf6c200d59d02eb406bf2181b.gif

大家好

话说今天风和日丽

太阳红彤彤、花儿五颜六色

这时一位貌似知乎那边的人

突然要加我好友

7021df8e59ad2e96b835d1b5ef2cfbae.png
b0d4683d7bdca6edd7c443706739502e.png

至于事情的经过

还得从两天前说起...

af540e0cd6caae5da22216f008b1a8cc.png

熟悉我的读者可能知道

知乎刚公测那会儿我就开始玩了

最早一条回答还是2012年写的

10327ecbfa3756657add7290465c1950.png

那会儿我就觉得知乎沙雕答主干货极多

7年过去知乎的注册用户已达2亿

沉淀的优质内容自然数量惊人

而作为一个兴趣广泛的沙雕博主

知乎自然是我常逛的去处

67dac8cfa62b49c650dfaaa7bd5b9f42.gif

然而在知乎的新信息流的加持下

由兴趣推荐来控制时间线

你喜欢什么它就给你推荐什么

导致它现在吞噬时间的能力极强

经常一开一关,一下午就没了

弄到九点才开始写稿,最后只好鸽鸽

01015fa98da95305c5fc970092965792.png

因此为了避免在写稿时

被那些无关的诱人答案所吸引

22d54a93d7779aa9a1c4e497861494a5.png

我决定捣鼓一个知乎爬虫

帮我过滤那些受欢迎但无关的回答

以控制写稿期间刷知乎的时长

4d3f40d2500efd9cbdfe707c9b7c7be0.gif

先设计一下爬虫的架构

em...大概长这个样子

db34a0d26eaf6586d9bd23cc0007616b.png

说到爬虫,就不能不用python

毕竟它才是世界上最好的语言

这次爬取,用的是request

爬取一个回答,很简单

就这一段代码

eaae7cb1739daca023f08b3a474a8665.png

它代表什么意思是:

我要爬的网址是知乎的某个回答

并将爬到的信息打印出来

现在让我们来看看效果

79a85ceb3334898e0d1bce0d53dad636.gif

额...反应有是有,不过有点短

尤其是中间那个400

我们都知道404是

页面被和谐的意思

那么400呢?

172132c33af9054600b8cd45b3478958.png

其实它也很简单

就是一个大写加粗的——

a32005ac21859858466fad7917c63636.png

打个比方大家就懂了

一个网站,好比一个博物馆

而大家平常用浏览器访问

就好比穿着正常的衣服去参观

51bc220444b74d029a623f3bae22cd71.png

爬虫的衣服,则长这个样子

3a1b19a5781260c9f8cf3c8ef5a42400.png

明摆了告诉别人我是来捣乱的

所以,知乎才会给我们这一反馈

f92e0e9367901f4b37a88fe8122bc7d5.gif

不过解决起来也简单

换身衣服就行,三行代码的事

ec54f56e72fa737b35215de1738b32b4.png

现在再来试试知乎

03dc81c3e4a1dcf934b66a5968ee4026.gif

成功返回网站代码!

看来知乎也不是很难爬嘛

7282e41482a825fbfb374d16157e6a27.png

不过,开心没多久打脸的就来了

因为我在代码里找到的最后回答

仅仅只到网页显示的一丁点

bc377af1963a61660494358597978ed1.png

也就是说,我压根没爬全!

750bccaab15a8f81bfab6586d2b372e0.png

打开审查元素一看

罪魁祸首应该是这个batch

00014e741d168818e877ee9d75775efe.png

这应该是某种加密或隐藏的指令

其实我也不太懂

但对比豆瓣读书清晰易懂的结构

你知道知乎很坑就对了

a8cdd40c2d339bd6dcb02dda7dd5c8c8.png

但此举也不是不能理解

知乎是一座知识博物馆的话

那答案就是里面的馆藏文物

所以怎么可能让你轻易搬走

4cb07ee733a35874170c8adb48ab6c2b.gif

不过,这岂能难倒我?

调用浏览器去爬取不就行了嘛!

这样既解决了衣服又解决了加密

只是浏览器的代码比较复杂

0bbef0700873cf9d50bfa7d74c0c4f3b.png

前面大段我也不懂,我搬网上的

反正只要把网址输入就能运行

之前爬优酷评论,用的就是它

1f66e3dbfc5c83751035f14b723436a0.gif

不用费时去揣摩网页结构

直接暴力加载出数据

无脑爬取好帮手

9d505b876f0a0cc1e35b01e9f8504ba1.png

不过这次还新增了一段代码

29bf9731cd74e92546e6202fec09e464.png

它的意思是把页面拉到最底

这样就不会出现数据遗漏的问题了

下面展示下爬知乎的效果

5aa2af331a555eee13cd322033098660.gif

是不是很杰宝酷炫?

接下来我们再去看看数据

c8d7a1b604709c17339d4029997e1f6f.png

尼玛!为毛还那么少?

this is no science!

而且知乎还在代码里留下了嘲讽

a9ed328226b235179db7914baf4dd70d.png
83ef81b0e39f2f7022567049248e9398.png

看来知乎的反爬措施并不简单

因为知乎虽说是个博物馆

但它不会一次性展示出全部精品

你想想,你一点进去一个问题

1200个回答同时完整加载

那电脑不得卡死?体验一定极差

163ecfb66e81451ae4f5d932e240540d.gif

因此知乎做了一个设置

只有当你走到特定位置

才会把文物从仓库里传送出来

92330c58bce766a2e296c19c852adc65.gif

换句话说,要想爬知乎

就必须找到这个仓库

找它也不难,浏览器直接按F12

下拉浏览器等待数据加载就能找到

71e995f1847c55882d6274a35a57776f.gif

复制后在浏览器打开是这个样子

2997b7def27d7afb32afe714ae195e6e.png

可能有朋友会好奇:

既然你都知道可以这样弄

为啥一开始要绕那么大圈子?

1f25b99d4557cd019a0253458904566b.gif

唉,说到底主要还是

这个仓库地址复杂得让人脱发

a940e86138cc49162a32c312796ad7b1.png
51caeff04a2ace59621f2b1ff8f8c1c1.gif

经过一番删删减减后

这地址精简成了这样...

5c8a2f6ef37f6a8d757eb3683a71ca8b.png
6ee46e8ace0521f4ac6056a27d129190.png

把它扔进request运行看看

8a5e9d46ce48ff110ae8a09f849a7827.gif
717e6f7f00e49471e7ef4320b6a5f05b.png

鹅妹子嘤!

现在,最难的问题已解决

剩下的工作就简单多了

你只需要解析需要信息的位置

然后再嵌套一个爬问题的循环

并且还需搞个写入文件的函数

此外,为了效果能够酷炫一点

最好是在加入交互的体验过程

对了!点赞的筛选也不能忘记

还有就是要考虑一下模糊搜索

eaa7fe68d149160f24812215f45c4467.png

其实这些都不难

也就30分钟的工作量

0362bdbbf6269fb0767af6b318d5087e.png

现在让我们来测试一下

比如,我这人有点闷

想学学幽默的沟通技巧

b576b74ef063a09d934ac34e65625d95.gif

爬完关键词后

它还会问你要不要再爬

输入【结束】,就能停止程序

6759cd40b5aff01fa4a71af72dbfdcb3.gif

爬取的内容还会储存在表格中

a304c71c7e9083439b694c561601aea1.png
a4451bd10c89e709b3edfcb20731e42f.png

自从捣鼓好这个爬虫后

我就犹如青春期的boy

拿到1024的邀请码

从此一发不可收拾

d4278fe413cb39d256cd5adcdb894ef5.gif

只不过,最终的结局

你们都知道咯...

8f0f2875a70eda48c357701da4752615.png
46030ec815b8e8a70230f6ed3c1c69a6.png
77f59fb57e7fbd989743e4b019aae166.png
bef1cb75216f94318d85ea81c78f4565.png
3203fa2c94b57366bac396541bb7c340.png
02a6eac953597589fa730bbb620f97e5.png
1b5a2e844e944c955c26bf99fde7d7b4.png
d7bd9e591fd0a4f05ea87c0657e1c5bc.png
5980071a1086c18ffd1c8ca48d47b8f8.png
2ee6a0a433c4c6dc571779b1ab772a72.png
d71fcf75b18c18c667ef34e47a04ecde.png
eb2e69b4bc8c6be3bdcabbb7395cdfb9.png
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值