python初学者笔记——爬虫requests（续）

最新推荐文章于 2022-06-02 14:32:26 发布

红茶半两酒

最新推荐文章于 2022-06-02 14:32:26 发布

阅读量308

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/reddrink/article/details/103337857

版权

python 专栏收录该内容

4 篇文章 1 订阅

订阅专栏

声明：
内容主要来自于中国大学MOOC上“Python网络爬虫和信息提取”这个视频。文章仅为个人学习记录笔记，如有侵权，或者其他问题，可以及时联系我，我会删除的。

四、实例

（3）百度搜索关键词提取
百度搜索其实也是一个链接，找到关键词的接口，我们就可以使用爬虫去爬取信息。嗯……按我的理解举个栗子。我们在浏览器打开百度：https://www.baidu.com，搜索python，回车。就会跳到一个包含了许多python链接的页面。然而我们还可以在浏览器网址那一栏直接输入：https://www.baidu.com/s?wd=python，这样出来的结果和之前操作一样。
所以说，我们可以得到百度关键词接口就是：http://www.baidu.com/s?wd=keyword，keyword就是关键词。
【不过有个问题，就是直接在百度页面上搜索python，弹出来的网址除了https://www.baidu.com/s?wd=python，后面还有一大堆东西，咱也不知道是啥……】
下面开始上机实习：(params就是一个参数，可以理解为把kv的内容附在了网址后面。)

>>> import requests
>>> kv = {'wd':'Python'}
>>> r = requests.get("http://www.baidu.com/s", params = kv)
>>> r.status_code
200
>>> r.request.url
'https://www.baidu.com/s?wd=python'
>>>len(r.text)
302829

当然，这是理想情况，实际情况是……

>>> import requests
>>> kv = {'wd':'Python'}
>>> r = requests.get("http://www.baidu.com/s", params = kv)
>>> r.status_code
200
>>> r.request.url
'https://wappass.baidu.com/static/captcha/tuxing.html?&ak=c27bbc89afca0463650ac9bde68ebe06&backurl=https%3A%2F%2Fwww.baidu.com%2Fs%3Fwd%3DPython&logid=10813745290588226681&signature=7d949d1724f3e83562dab0674646be7b&timestamp=1575197615'
>>> len(r.text)
1519
>>>

打开网址，你会发现这是一个验证网址……我尝试改了下头文件，然而还是不行。不知道因为啥其他原因被拦住了吧，郁闷。
附上完整代码格式：

import requests
keyword = "python"
url = "http://www.baidu.com/s"
try:
    kv = {'wd':keyword}
    r = requests.get(url,params=kv,headers = {'user-agent':'Mozilla/5.0'})
    print(r.request.url)
    r.raise_for_status()
    print(len(r.text))
except:
    print("爬取失败！！！")

（4）网络图片的爬取与存储
网页的图片链接格式：http://……picture.jpg。当然，为了尝试不同，我选择的是png格式的图片。其实其他格式应该也可以，包括视频，文本等。
这一部分相对于前面来说，重点应该在于存储。我们需要设置存储路径以及编写存储的相关代码。由于我没有系统学过python，文件这一部分我后面会专门写一篇笔记，这儿就不多说了。

>>> import requests
>>> path = "D://abc.png"
>>> url = 'https://c-ssl.duitang.com/uploads/item/201808/22/20180822180821_glblu.thumb.700_0.png'
>>> r = requests.get(url)
>>> r.status_code
>>> with open(path, 'wb') as f:
 f.write(r.content)
 851636
>>> f.close()

这样，我们就可以在我们的D盘中看到我们的图片了。
附上完整代码：

import requests
import os
url = 'https://c-ssl.duitang.com/uploads/item/201808/22/20180822180821_glblu.thumb.700_0.png'
root = "D://pics//"
path = root + url.split('/')[-1]
try:
    if not os.path.exists(root):
        os.mkdir(root)
    if not os.path.exists(path):
        r = requests.get(url)
        with open(path, 'wb') as f:
            f.write(r.content)
            f.close()
            print("文件保存成功")
    else:
        print("文件已保存")
except:
    print("爬取失败")

（5） IP地址归属地的自动查询
个人觉得这个和第三个例子有些类似，只是这个通过字符串衔接，第三个是参数设定。
直接附上完整代码:

import requests
url = "http://m.ip138.com/ip.asp?i[="
try:
	r = requests.get(url+'202.204.80.112')
	r.raise_for_status()
	r.encoding = r.apparent_encoding
	print(r.text[-500:])
except:
	print("爬取失败")

红茶半两酒

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python初学者笔记——爬虫requests（续）

声明：内容主要来自于中国大学MOOC上“Python网络爬虫和信息提取”这个视频。文章仅为个人学习记录笔记，如有侵权，或者其他问题，可以及时联系我，我会删除的。四、实例（3）百度搜索关键词提取百度搜索其实也是一个链接，找到关键词的接口，我们就可以使用爬虫去爬取信息。嗯……按我的理解举个栗子。我们在浏览器打开百度：https://www.baidu.com，搜索python，回车。就会跳到...
复制链接

扫一扫