B站视频,老师讲的非常好–推荐
https://www.bilibili.com/video/BV1zg411A731?p=2
#author:lanqiao
#公众号:easycoder
#software:Pycharm
"""
文件说明:
腾讯网源码获取
什么是爬虫:
爬虫应用:百度 goole sougou-->全量爬虫-->数据非常广,不太精准
聚焦爬虫,主题爬虫--->抓某个特定网站图片、根据用户的需求采集特定的数据的地址
增量爬虫-->针对采集的数据源,更新的数据
综合思路:通过网址获取网页源代码
拆解:
第一步:通过Python建立网络链接
第二步:通过访问网址获取源码
1.Python 库 --> 30-40W
什么是库?---->工具包--->快速时间我想要实现的功能
安装库: pip3 install requests
requests库:用于建立网络连接的库
2.网络请求常用的方式:
post 安全、效率低
get 不安全、快
3.print函数,用于在终端输出的函数
4.<Response [200]> 状态码
请求 与 响应
1XX 请求已经发送,等待响应
2XX 请求被正常响应
3XX 请求被接收,但是被重定向
4XX 请求资源不存在,或者路径错误
5XX 服务器内部错误
"""
#导入库
import requests
#使用库
#建立网络链接
#print(requests.get("https://www.qq.com")) #<Response [200]> 网络链接建立
print(requests.get("https://www.jd.com").text)