Python3爬虫入门(快速简易)

Python3爬虫入门(快速简易)

网络爬虫简介

通用爬虫:百度、谷歌搜索引擎

聚焦爬虫:根据特定需求,从特定网站爬取特定数据

爬虫工具

pycharm -->编译器

anaconda -->python运行库集合

google chrome -->程序员首选的谷歌浏览器

基本网络常识

http和https协议:

http协议: 超文本传输协议, 是一种发布和接收HTML页面的方法

https协议:是http协议的加密版本,在http下加入了SSL层。服务器端口号是443端口。

与浏览器交互过程

浏览器—>输入url-----get/post请求----->http服务器---->网站服务器----返回html---->http服务器---->用户浏览器【浏览器追加请求html引用的css、js、等动态文件】—…--->显示给用户

url(链接)

在浏览器中请求一个url,浏览器会对这个url进行一个编码。除英文字母,数字和部分符号外,其他的全部使用百分号+十六进制码值进行编码

Get/Post请求

get: 只从服务器获取数据

post: 向服务器发送数据ÿ

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值