图书说明:
如果编程是神奇的,那么网页抓取肯定是一种魔法。通过编写一个简单的自动程序,您可以查询Web服务器,请求数据并解析它以提取您需要的信息。这本实用书的扩展版不仅向您介绍了网络抓取,还提供了从现代网络中抓取几乎所有类型数据的综合指南。
第一部分重点介绍Web抓取机制:使用Python从Web服务器请求信息,执行服务器响应的基本处理,以及以自动方式与站点交互。第二部分探讨了各种更具体的工具和应用程序,以适应您可能遇到的任何Web抓取方案。
- 解析复杂的HTML页面
- 使用Scrapy框架开发爬虫
- 学习存储数据的方法
- 从文档中读取和提取数据
- 清理并规范化格式错误的数据
- 读写自然语言
- 通过表单和登录进行爬网
- 通过API抓取JavaScript并进行爬网
- 使用和编写图像到文本软件
- 避免刮伤陷阱和僵尸阻滞剂
- 使用刮刀测试您的网