爬取“沙雕表情包”

欢迎加入我们卧虎藏龙的python讨论qq群:729683466

qq聊天的时候

很多朋友会有一种感觉

图到用时方恨少

殊不知

python可也可以用下载表情包的

今天,我们就用python来爬取

“斗图啦”网站的表情包

1:关注“python趣味爱好者”公众号,回复“爬取表情包 ”获取源代码

2:加入群聊:729683466。在群文件中下载源代码以及相关资料。

ss

python凯撒加密图片

给“小姐姐”颜值打打分吧

python3.6.4+第三方模块urllib,re,os,time

这一节爬虫主要讲一讲关键词是怎么插入到网址中的。

首先介绍一下我们要爬取的网站---斗图啦。

这个网站主要就是一些沙雕表情包

网站是这样的,大家输入网址以后

https://www.doutula.com/

大家可以看到,界面上有一个搜索选项。大家可以输入自己想要检索的关键词。

然后点击搜索

就会出现和这个关键词相关的图片

比如大家输入关键词“害怕”,然后点击搜索,就会发现很多和害怕相关的沙雕表情包。

在这里大家需要注意一下网址的变化。网站首页的网址是

检索“害怕”关键词之后的网站的网址是

仔细对比二者可以发现,检索以后的网址相当于在首页网址后面加上了

search?keyword=害怕。

这时候,大家基本就看明白了检索的规律。

大家输入的关键词就是通过这种方式插入到了网址中。

那么,大家猜测一下。如果大家想检索“小姐姐”

检索后的网址应该是什么样呢?

https://www.doutula.com/search?keyword=小姐姐

然后我们尝试一下 ,看一看真实的效果

显然,link函数的作用就是连接关键词,形成新的网址,之后我们就可以直接通过这个网址访问服务器的数据了。



def link(keyword,pagenum):
    qkeyword=urllib.parse.quote(keyword)
    page="&page="+str(pagenum)
    search='search?type=photo&more=1&keyword='
    url="http://www.doutula.com/"
    link=url+search+qkeyword+page
    req=request.Request(link)
    req.add_header('user-agent','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36')
    text=request.urlopen(req).read()
    text=text.decode('utf-8')
    return text

其中keyword就是我们输入的关键词

link就是最终字符串连接形成的网址

request.Request是访问这个网址,当然,要加上请求头

最后读取网址然后解码

返回相关的信息

有了这么多表情包,以后斗图的时候再也不怕啦!

作者|齐

编辑|齐

感谢大家观看

有钱的老板可打赏一下小编哦

代码作者:ChenKS12138

参考来源:https://github.com/ChenKS12138/scrapy

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值