python爬虫笔记_python 爬虫笔记

爬虫 大网站获取部分网页信息

1、F12进入开发者模式 2、点击Network,再点击XHR 3、点击下图左上角两个红框中图标,一个暂停,一个清空 4、点击一个网址,查看Response,是否是需要的数据,如果是,查看Headers,General中的Request URL即为需要请求的网址。

1156596-20181030164748668-500365149.png

1、两个比较好的学习视频

Python零基础:Scrapy爬虫--免费

Python网络爬虫与信息提取 嵩天 北京理工大学

beautiful soup 库是解析、遍历、维护‘标签数'的功能库

HTTP, Hypertext Transfer Protocol,超文本传输协议

HTTP是一个基于‘请求与响应’模式的、无状态的应用层协议,http协议采用URL作为定位网络资源的标识,URL格式如下:

http://host[:port][path]

host:合法的internet主机域名或ip地址

port:端口号,缺省端口为80

path:请求资源路径

在浏览器中好像可以不用输入端口号,端口号是与ip地址一起使用的

例如:www.baidu.com

cmd 中 ping baidu.com 得到baidu.com ip 123.125.114.144

可以再浏览器中输入 123.125.114.144 或者 123.125.114.144:80 得到都是百度主页,后面80就是默认端口号,输不输入都可

TCP协议 面对面沟通、交流 比如QQ软件 A 与 B交流,A把信息发送到QQ服务器,QQ服务器把信息发送给B,反过来也一样。

UDP协议 广播 (一个人说,其他人听) 比如上计算机课的时候,老师控制我们的电脑屏幕

网络通信的工作原理

8383716.html

1156596-20180130100003875-1630146996.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值