看了一些论文和书,有些感触,及时记录。
1. URI(Universal Resource Identifier)所有网络资源通用资源标志符。URI 通常由三部分组成:①访问资源的命名机制;②存放资源的主机名;③资源自身
的名称,由路径表示。
2. URL(Uniform Resource Locator) 是 URI 的一个子集, 叫作“统一资源定位符”。 URL 可以用一种统一的格式来描述各种信息资源,包括文件、服务器的地址和目录等。URL 的格式由三部分组成:
第一部分是协议(或称为服务方式)。
第二部分是存有该资源的主机 IP 地址(有时也包括端口号)。
第三部分是主机资源的具体地址,如目录和文件名等。(有时可以省略)
比如:http://write.blog.csdn.net/postedit
第一部分和第二部分用“://”符号隔开,第二部分和第三部分用“/”符号隔开。
3. 第一部分的传输协有http超文本协议和文件传输FTP。(这我还记得。。)
4. Http状态码:
分类:
已定义范围 | 分类 | |
1XX | 100-101 | 信息提示 |
2XX | 200-206 | 成功 |
3XX | 300-305 | 重定向 |
4XX | 400-415 | 客户端错误 |
5XX | 500-505 | 服务器错误 |
5. 宽度(广度)优先历遍,请看《算法导论》那本书。
6. 在宽度优先历遍网页时,我们还能在同一层的网页设置偏好,让那些重要的网页优先历遍,这叫做Page Selection。网页的重要性公式是:
I(P)=X*IB(P)+Y*IL(P)
其中,X 和 Y 两个参数,用来调整 IB(P)和 IL(P)所占比例的大小,IB是反向链接(backlinks,即指向当前 URL 的链接)的数量和质量。IL是链接的重要度, 是一个关于 URL 字符串的函数, 仅仅考察字符串本身, 比如认为 “.com”和“home”的 URL 重要度比“.cc”和“map”高,我们定义为 IL(P)。
7. 线程又称为轻量级进程,它和进程一样拥有独立的执行控制,由操作系统负责调度,区别在于线程没有独立的存储空间,而是和所属进程中的其 他线程共享存储空间。