下载链接:
互联 网 包含 了迄今为 止 最 有用 的数据 集 , 并 且 大 部 分 可 以 免费公开访 问 。
但 是 , 这 些 数据 难 以复用 。 它 们被 嵌 入在 网 站的 结 构 和样 式 当中, 需要 抽取
出 来 才能使用 。 从 网 页 中抽取 数 据 的 过程 又 被 称为 网 络 爬虫 。 随着越来越 多
的 信 息被 发 布到 网 络上, 网 络 爬 虫也 变 得 越来越 有 用 。
本书内容
第 1 章, 网 络 爬虫 简 介, 介 绍 了 网 络 爬虫 , 并 讲 解 了 爬取 网 站 的方 法 。
第 2 章, 数 据抓 取, 展 示 了 如 何从 网 页 中抽取 数据 。
第 3 章, 下 载 缓 存 , 学 习 了如 何 通 过 缓 存结果 避免 重 复 下 载 的 问题 。
第 4 章, 并发 下载 , 通 过 并行 下 载加 速 数 据 抓 取 。
第 5 章, 动态 内容 , 展 示 了如 何从 动态 网 站中抽取 数据 。
第 6章, 表单 交互 , 展 示 了 如 何 与 表 单 进 行交互 , 从而访 问 你 需要 的数 据 。
第 7 章, 验 证 码处 理 , 阐 述了如 何访 问 被 验 证 码 图 像保 护的数 据 。
第 8 章, Sc rap y , 学 习 了如 何 使用 流 行 的高 级 框架 Sc ra py 。
第 9 章 , 总 结 , 对我 们 介 绍 的 这些网 络爬虫 技术 进 行 总 结 。