爬虫实战爬取有道翻译

最新推荐文章于 2024-08-06 11:55:39 发布

qin_shang_

最新推荐文章于 2024-08-06 11:55:39 发布

阅读量1.6k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qin_shang_/article/details/79182234

版权

【1701H1】【穆晨】【180127】第109天总结

图片也是文件，也是用二进制数据组成的，用wb写入

写了一个爬取placekitten网站的一张猫图的代码

urlopen后面可以是字符串也可以是地址，详情docs里面搜索

这是后面加地址的

这是后面加字符串的

geturl获取的是具体的地址

info获得是HTTPMessage的一个对象，可以把它打印出来，得到远程服务器返回的head信息

getcode得到http的状态码，200（OK）

游览器自带审查元素（检查）

爬取网站需要URL和data需要从headers寻找

get是从服务器请求获得数据

post是向指定服务器提交被处理的数据

user agent识别浏览器访问还是代码访问

windows NT 6.3-> windows 8.1

5.1->windows XP

6.1->windows 7

下面写一个爬取百度翻译的代码

error。。。反扒。。。

百度不行就有道

有道也反扒，出来的也是error，但网上网友表示url改下就可以了

出来的是json，导入模块，提取我们需要的东西

然后改进代码，做成能给用户用的东西

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。