PYTHON——第九章网络爬虫应用和实例

最新推荐文章于 2023-11-29 15:45:00 发布

XU_MAN_

最新推荐文章于 2023-11-29 15:45:00 发布

阅读量293

点赞数

分类专栏：大学课程学习笔记文章标签： python 爬虫 requests库

本文链接：https://blog.csdn.net/XU_MAN_/article/details/102887640

版权

大学课程学习笔记专栏收录该内容

48 篇文章 1 订阅

订阅专栏

一，通用代码框架

1，Requests库的异常

该方法能判断返回的内容是不是200，是200返回内容正确，不是就引起HTTPError

2，爬取网页的通用代码框架

import requests
def getHTMLText(url):
    try:
        r=requests.get(url,timeout=30)
        r.raise_for_status()
        r.encoding=r.apparent_encoding
        return r.text
    except:
        return "产生异常"
if __name__=="__main__":
    url="http://www.baidu.com"
    print(getHTMLText(url))    #获得相应网站的HTML代码

3，习题

编写代码实现使用通用爬虫框架实现对新浪百度搜索首页的信息获取，并将信息内容存放在文件中，注意保存前先处理内容的编码。

答案代码如下：

import requests
def getHTMLText(url):
try:
r=requests.get(url,timeout=30)
r.raise_for_status()
r.encoding=r.apparent_encoding
return r.text
except:
return "产生异常"
if __name__=="__main__":
url = "http://www.sina.com.cn/"
f = open("D:/1.txt", 'wb')
f.write(getHTMLText(url).encode('utf-8'))
f.close()

XU_MAN_

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
PYTHON——第九章网络爬虫应用和实例

一，通用代码框架1，Requests库的异常该方法能判断返回的内容是不是200，是200返回内容正确，不是就引起HTTPError2，爬取网页的通用代码框架import requestsdef getHTMLText(url): try: r=requests.get(url,timeout=30) r.raise_for_sta...
复制链接

扫一扫