爬虫--百度翻译的简单爬取

最新推荐文章于 2024-08-06 11:55:39 发布

遇见编程

最新推荐文章于 2024-08-06 11:55:39 发布

阅读量1k

点赞数

分类专栏： Python 爬虫文章标签：爬虫百度翻译

本文链接：https://blog.csdn.net/MR_HJY/article/details/81637745

版权

爬虫同时被 2 个专栏收录

14 篇文章 0 订阅

订阅专栏

Python

12 篇文章 0 订阅

订阅专栏


from urllib import request,parse
from urllib.error import HTTPError,URLError

# 一、get(url, headers = None)
# 定义get方法，获取参数，返回爬取信息
def get(url, headers = None):
    return urlrequests(url, headers = headers)

# 二、post(url, form, headers = None)
# 定义post方法，获取参数，返回爬取信息
def post(url, form, headers = None):
    return urlrequests(url, form, headers)

# 封装爬取信息方法
def urlrequests(url, form = None, headers = None):
    # 获取网页response中的User-Agent信息
    user_agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'
    # 如果用户需用自行转入headers， 则覆盖之前的headers
    # 判断headers是否为空
    if headers == None:
        # 如果没有传入headers参数，即为None的时候，则把user_agent信息以值的形式传递
        headers = {
            'User-Agent':user_agent
        }
    # 定义一个变量接收数据
    html_bytes = b''
    # 错误类型的判断  隐藏错误信息
    try:
        # 判断请求类型
        if form:
            # POST类型
            # 2.1 转换成str (导入parse)
            form_str = parse.urlencode(form)
            # 2.2 转换成bytes
            form_bytes = form_str.encode('utf-8')
            # 使用request.Request获取url,data,headers
            req = request.Request(url, data=form_bytes, headers=headers)
        else:
            # GET类型
            # 使用request.Request获取url和headers
            req = request.Request(url, headers=headers)
        # 用urlopen打开获取到的信息
        response = request.urlopen(req)
        # 读取获取的信息
        html_bytes = response.read()
    except HTTPError as e:
        print(e)
    except URLError as e:
        print(e)
    # 将读取的信息进行返回
    return html_bytes

if __name__ == '__main__':
    # post测试数据
    # url = 'http://fanyi.baidu.com/sug'
    # form ={
    #     'kw':'哈哈'
    # }
    # html_bytes = post(url, form=form)
    # print(html_bytes.decode('utf-8'))

    # get测试数据
    url = 'http://www.baidu.com'
    html_byte = get(url)
    print(html_byte)

首先，吐槽一下CSDN，好久没用发现编写博客的画风真的汗颜。。。

其次，这个只适合初学者学习。

最后，代码思路的简单讲解，代码注释已经很详细。

一、先创建urlrequests方法，对要爬取的信息进行简单的封装

二、后来又考虑到了请求类型（get，post）的不同，又对urlrequests进行了简单的封装调用

三、在入口处写入get或post所需的参数进行测试