Python入门第05篇（爬虫相关）

龙井茶Sky

已于 2024-01-02 16:37:18 修改

阅读量647

点赞数 10

分类专栏： Python 文章标签： python 爬虫开发语言

于 2023-12-12 09:20:01 首次发布

本文链接：https://blog.csdn.net/to_love_/article/details/134931773

版权

Python 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

爬虫初步说明

爬虫，一句话来说，即模拟浏览器爬取一些内容，如自动下载音乐、电影、图片这种的

具体可能是直接访问网页进行解析，也可能是调用webapi直接获取数据，后者应该更多一些

html相关基础

html、js、css构成了html的三要素

urllib之读取网页内容

from urllib.request import urlopen

url='http://www.baidu.com'
con=urlopen(url)
cons=con.read()

with open('./output.html','wb') as f:
    f.write(cons)

print(cons)

这里是打开了百度首页，然后写入到一个本地html文件，注意这里使用wb方式写入（字节流）

注意：需要通过pip安装urllib

http相关基础

三次握手

四次挥手

http方法：get、post

requests之webapi调用

import requests
import json

def fanyi(inputStr):
    txt=input("请输入要翻译的内容：")
    url="https://fanyi.baidu.com/sug"
    data={
        "kw":txt
    }
    result=requests.post(url,data=data)
    # print(result.text)
    # printInfo(result.json())
    printInfo(result.json()["errno"])
    # printInfo(type(result.json()))
    print("翻译结果：")
    for i in range(len(result.json()["data"])):
        printInfo(str(i+1)+"："+result.json()["data"][i]["v"])

if __name__=="__main__":
    fanyi("我的翻译机器人")
    pass

这里一百度翻译接口为例，通过输入待翻译内容，然后调用翻译接口，将接口返回结果进行解析，输出翻译结果

注意：需要通过pip安装requests

主要用到的就是get、post

这里需要注意header、body这些参数，要根据实际网页请求的内容来，也可以先用postman、apipost测试

再一个需要注意的是，对于返回结果的解析，需要先清楚其类型，才可以更好的解析，如使用type()先打印下类型，就知道下一步要怎么解析了

龙井茶Sky

关注

10
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
Python入门第05篇（爬虫相关）

再一个需要注意的是，对于返回结果的解析，需要先清楚其类型，才可以更好的解析，如使用type()先打印下类型，就知道下一步要怎么解析了。这里需要注意header、body这些参数，要根据实际网页请求的内容来，也可以先用postman、apipost测试。具体可能是直接访问网页进行解析，也可能是调用webapi直接获取数据，后者应该更多一些。爬虫，一句话来说，即模拟浏览器爬取一些内容，如自动下载音乐、电影、图片这种的。html、js、css构成了html的三要素。注意：需要通过pip安装requests。
复制链接

扫一扫