3.2网络数据获取

最新推荐文章于 2020-07-08 11:18:11 发布

我是蓝银草

最新推荐文章于 2020-07-08 11:18:11 发布

阅读量254

点赞数

分类专栏： MOOC用python玩转数据

本文链接：https://blog.csdn.net/Crystal_LYP/article/details/99429082

版权

MOOC用python玩转数据专栏收录该内容

1 篇文章 0 订阅

订阅专栏

用Requests库的get()函数抓取一个你平时经常使用的网站主页，并查看该网站的爬虫协议（如果有的话）。默认答案是正确，你成功了吗？(●’◡’●)
抓取网站情况多样，有时还会很复杂，这需要长期的积累，不能一蹴而就，列举几种情况：
a.假设获取的是二进制文件，则可以借鉴如下方法保存数据：

import requests
 
r = requests.get('https://www.baidu.com/img/bd_logo1.png')
with open('baidu.png', 'wb') as fp:
   fp.write(r.content)

b. 为了反爬，有些网站会对Headers的User-Agent进行检测，需将headers信息传递给get函数的headers参数，例如知乎，直接访问会返回400，加上headers参数后可正确返回：

import requests
re = requests.get('https://www.zhihu.com')
print(re.status_code)
# headers可从http测试网站https://httpbin.org或浏览器的“开发者工具”获得
headers = {"User-Agent": "Mozilla/5.0 (X11; Linux i686) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.83 Safari/535.11"}
re = requests.get('https://www.zhihu.com', headers = headers)
print(re.status_code)

反爬的策略还有很多，需要逐渐熟悉，有些网站要想获得数据还需要登录，需要分析登录需要的属性。
c. 被JS渲染过的页面内容获取
可以通过浏览器的“开发者工具”功能寻找真正提供数据的页面，有时会有一定的难度。