python爬虫
文章平均质量分 74
Py-Frank
这个作者很懒,什么都没留下…
展开
-
python爬虫----selenium实战(爬取腾讯招聘)
声明 : 本篇仅学习使用,不到将其用于其他途径.import time,pymongo#先导入驱动,我这边用的谷歌的from selenium import webdriver#显式延时等待from selenium.webdriver.support.wait import WebDriverWait#对网页上元素是否存在,可点击等等进行判断,一般用于断言或与WebDriverWait配合使用from selenium.webdriver.support import expected_co原创 2021-08-06 14:48:21 · 478 阅读 · 0 评论 -
python爬虫——Beautiful Soup库
Beautiful Soup,当前为4.4.0版本,简称 bs4,bs4不属于python标准库,需安装:pip install bs4官方中文文档:https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/简单来说,BeautifulSoup 就是 Python 的一个 HTML 或 XML 的解析库,我们可以用它来方便地从网页中提取数据。bs4 最大的特点是简单易用,不像正则和 xPath 需要刻意去记住很多特定语法,尽管那样会效率更高更直接。bs4 自原创 2021-07-29 00:43:45 · 344 阅读 · 0 评论 -
python爬虫——xpath
XPath非python标准库,是lxml库里的一个支持模块,需安装:pip install lxmllxml python 官方文档:http://lxml.de/index.htmlXPath,全称 XML Path Language,即 XML 路径语言,它是一门在 XML 文档中查找信息的语言。最初是用来搜寻 XML 文档的,但同样适用于 HTML 文档的搜索.XPath的功能非常强大,几乎所有想要定位的节点都可以用 XPath 来选择。官方文档:https://www.w3.org/TR/原创 2021-07-29 00:35:23 · 567 阅读 · 0 评论 -
python爬虫——Pyquery库
Pyquery库并非python标准库,所以需要下载:pip install pyqueryPyquery是一个类似jquery(一个js库)的库,使用 lxml 进行快速 xml 和 html 操作。利用它,我们可以直接解析 DOM 节点的结构,并通过 DOM 节点的一些属性快速进行内容提取。1. 初始化Pyquery对象初始化pyquery对象的方法有三种:文件名(filename)、网址(url)、字符串(text)1.1 通过网址(url)初始化Pyquery对象即,解析网址。在发起请求原创 2021-07-27 23:52:04 · 815 阅读 · 0 评论