网络爬虫基础知识碎碎念

看了一些论文和书,有些感触,及时记录。

1. URI(Universal Resource Identifier)所有网络资源通用资源标志符。URI 通常由三部分组成:①访问资源的命名机制;②存放资源的主机名;③资源自身
的名称,由路径表示。

2. URL(Uniform Resource Locator) 是 URI 的一个子集, 叫作“统一资源定位符”。 URL 可以用一种统一的格式来描述各种信息资源,包括文件、服务器的地址和目录等。URL 的格式由三部分组成:
第一部分是协议(或称为服务方式)。
第二部分是存有该资源的主机 IP 地址(有时也包括端口号)。
第三部分是主机资源的具体地址,如目录和文件名等。(有时可以省略)

比如:http://write.blog.csdn.net/postedit

第一部分和第二部分用“://”符号隔开,第二部分和第三部分用“/”符号隔开。

3. 第一部分的传输协有http超文本协议和文件传输FTP。(这我还记得。。)

4. Http状态码:

分类:

已定义范围 分类
1XX 100-101 信息提示
2XX 200-206 成功
3XX 300-305 重定向
4XX 400-415 客户端错误
5XX 500-505 服务器错误









5. 宽度(广度)优先历遍,请看《算法导论》那本书。

6. 在宽度优先历遍网页时,我们还能在同一层的网页设置偏好,让那些重要的网页优先历遍,这叫做Page Selection。网页的重要性公式是:

I(P)=X*IB(P)+Y*IL(P)

其中,X 和 Y 两个参数,用来调整 IB(P)和 IL(P)所占比例的大小,IB是反向链接(backlinks,即指向当前 URL 的链接)的数量和质量。IL是链接的重要度, 是一个关于 URL 字符串的函数, 仅仅考察字符串本身, 比如认为 “.com”和“home”的 URL 重要度比“.cc”和“map”高,我们定义为 IL(P)。

7. 线程又称为轻量级进程,它和进程一样拥有独立的执行控制,由操作系统负责调度,区别在于线程没有独立的存储空间,而是和所属进程中的其 他线程共享存储空间。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值