- 博客(4)
- 收藏
- 关注
原创 十分钟了解运输层协议结构
运输层位于因特网协议栈的的第四层,位于应用层之下网络层之上。运输层最重要的功能是多路复用与多路分解,这是一个运输层协议必须实现的最基本功能。多路复用表示运输层协议从应用层进程获取到应用层报文段后将其封装为运输层报文后定向指定套接字推向网络层的过程,而多路分解表示运输层在接收到报文数据后获取并根据报文内的目的端口号信息将数据导向指定套接字并交付给进程的过程。值得注意的是多路复用时运输层由更高层级的应用层调用,多路分解时则是由低层级的网络层调用。通过上面的讲解我们可以发现,网络层与运输层最大的区别就是网络层是端
2023-12-22 14:22:56 1043
原创 分组交换网络中端到端时会发生的四种主要时延及总时延的计算方法
当我们向接收端发送分组时,接收端一般不能即时接收到这些分组,而是经过一段时间的延迟后才能收到,我们一般准确的称呼这叫时延。时延或长或短,有很多因素会影响时延的长短。这篇文章把发送端发送分组到接收端接收分组的总时延分为四个主要部分进行介绍。
2023-07-02 16:48:11 2860 1
原创 避免爬虫陷入常见的死循环陷阱需要注意的URL别名问题
爬取过的URL添加进列表来记录已经爬取过的网页把,在爬取一个网页时把网页的URL和这个列表进行对比来确认是否爬取过这个页面(有损的存在位图可以减少列表数据的占用空间,树和散列表可以加快查找对比的速度,都是可以发挥作用的数据结构此时,但这里不多做讨论),列表中存在这个URL时成熟的爬虫应该拒绝爬行这个网页,这样能避免陷入死循环,这种方案大型爬虫产品中几乎是必须的在。2.http:/www.foo.com/readme.htm与http:/www.foo.com/README.HTM。
2023-05-29 16:08:12 594
原创 在万维网爬虫中进行翻页爬取的三种常用方案
首先先定义scrapy中的请求方法,然后创建列表对象,再遍历列表对象,用scrapy中的Request方法(形参url为实参url)对遍历后的临时变量发起请求,yield返回Response对象,所以start_requests方法的返回值是Response,主要代码如下。,在这个URL中,limit参数表示每个页面展示的书籍数量,而offset表示此资源目录里是从第几本书开始展示,所以第二页的URL是offset=10,而不是offset=2,那么也就不能简单粗暴的用上一个案例的方法进行请求了。
2023-05-20 18:06:19 4330 3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人