爬虫
文章平均质量分 89
Amauri@
公众号: 「 后端漫谈 」
展开
-
Python爬虫利器:Beautiful Soup的使用(一)
上一次的爬取网易新闻案例,我们使用到了一个解析 HTML 的库:Beautiful Soup。本次跟大家分享一下关于这个库的一些用法。 Beautiful Soup 简介: Beautiful Soup 是一个可以从 HTML 或者 XML 文档中提取数据的 Python 库, 它提供一些简单的函数可以很方便的从文档上提取所需要的数据。由于目前最新版本是 4.4.0,所以一般被简称为 bs4。 安...原创 2018-09-26 17:02:41 · 350 阅读 · 0 评论 -
Python 爬虫利器 Beautiful Soup 4 之文档树的搜索
前面两篇介绍的是 Beautiful Soup 4 的基本对象类型和文档树的遍历, 本篇介绍 Beautiful Soup 4 的文档搜索 搜索文档树主要使用两个方法 find() 和 find_all() find_all(): find_all 是用于搜索节点中所有符合过滤条件的节点 那么它支持哪些过滤器呢? 过滤器的类型: 字符串 正则表达式 列表 True 方法 字符串: 查找文档中所...原创 2018-10-04 12:27:47 · 228 阅读 · 0 评论 -
循序渐进学爬虫:多线程+队列爬取豆瓣高分计算机类书籍
上一次的抓取豆瓣高分计算机书籍的案例,采用的是完全同步的方式。即单个线程依次执行完所有的逻辑,这样存在的问题就是我们的爬虫程序会非常的慢。 所以本文作为上一次案例的升级版本,通过循序渐进、动手实践的方式来达到更好的学习效果。 相对于上次的案例,本次主要采用多线程+队列的方式来实现。 用到的包: import requests from bs4 import BeautifulSoup import...原创 2018-10-13 09:17:59 · 359 阅读 · 0 评论 -
Python爬虫案例:抓取豆瓣编程类高评分书籍
对于很多正在学习计算机的朋友来说,选择合适的学习材料是非常重要的。 本文将通过 Python 来爬取豆瓣编程类评分大于 9.0 的书籍。 此案例很适合入门爬虫的朋友学习,总共也就 3 个函数。 下图是最终的结果: 下面进入正题: 一、采集源分析: 首先我们找到豆瓣的编程类书籍网址: https://book.douban.com/tag/编程 进入网址之后我们翻到最下面的分页导航: 通过...原创 2018-10-07 17:22:30 · 1712 阅读 · 0 评论 -
Python爬虫利器:Beautiful Soup的使用(二)
上一篇文章介绍了 BeautifulSoup 的安装以及基本对象类型。 本次介绍使用 bs4 对 HTML 文档树的遍历。 先把本文用到的例子贴上: str = """ <!DOCTYPE html> <html> <head><title>bs4 test<原创 2018-09-28 21:23:21 · 590 阅读 · 0 评论