python收集数据的方法有哪些_爬虫能获取什么样的数据和具体的解析方式

最新推荐文章于 2022-12-06 09:22:03 发布

weixin_39977642

最新推荐文章于 2022-12-06 09:22:03 发布

阅读量152

点赞数

文章标签： python收集数据的方法有哪些

随着互联网的飞速发展，越来越多的数据充斥着这个时代。而获取和处理数据就成为我们生活中必不可少的部分，爬虫也是应运而生。

众多语言都能进行爬虫，但基于python的爬虫显得更加简洁，方便。爬虫也成了python语言中必不可少的一部分。那我们通过爬虫可以获取什么样的数据呢？又有什么样的解析方式呢？

在上一篇给大家介绍的是爬虫基本流程Request和Response的介绍，本篇给大家带来的是爬虫可以获取什么样的数据和它的具体解析方式。

能抓到什么样的数据？

网页文本：如 HTML 文档，Ajax加载的Json格式文本等；

图片，视频等：获取到的是二进制文件，保存为图片或视频格式；

其他只要能请求到的，都能获取。

演示import requests

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}

resp = requests.get('http://www.baidu.com/img/baidu_jgylogo3.gif',headers=headers)

print(resp.content) # 二进制文件使用content

# 保存图片

with open('logo.gif','wb') as f:

f.write(resp.content)

print('Ok')

成功运行就可以看到打印出来的图片的二进制数据，可保存成功后打印的 OK，这个时候我们打开文件夹就可以看到下载下来的图片了。这几行代码就简单的演示了爬虫保存文件的过程。

解析方式有哪些？

直接处理，比如简单的页面文档，只要去除一些空格的数据；

Json解析，处理Ajax加载的页面；

正则表达式；

BeautifulSoup库；

PyQuery；

XPath。

总结

看到这里，大家是不是已经对爬虫的基本工作原理有了清晰的认识了呢。当然，罗马并不是一天建成的，只要积累了足够多的经验，大家肯定能成为爬虫大神的。相信大家把我分享的相关资料看完，一定会成功的。

以上就是爬虫能获取什么样的数据和具体的解析方式的详细内容，更多请关注php中文网其它相关文章！

article_wechat2021.jpg?1111

本文转载于：CSDN，如有侵犯，请联系a@php.cn删除

weixin_39977642

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。