- 博客(4)
- 收藏
- 关注
原创 爬虫之pyquery详解
pyquery初始化字符串初始化1html = '''<div> <ul> <li class="item-0">first item</li> <li class="item-1"><a href="link2.html">second item</a></li> <li class="ite...
2020-07-12 21:56:58 256
原创 python爬虫之BeautifulSoup详解
BeautifulSoup解析器 使用方法 优势 劣势 Python标准库 BeautifulSoup(markup, "html.parser") Python的内置标准库、执行速度适中 、文档容错能力强 Python 2.7.3 or 3.2.2)前的版本中文容错能力差 lxml HTML 解析器 BeautifulSoup(markup, "lxml") 速度快、文档容错能力强 需要安装C语言库 lxml XML 解析器 Be
2020-07-12 16:31:19 186
原创 python爬虫之re库的使用(正则表达式)
正则表达式什么是正则表达式 正则表达式是对字符串操作的⼀种逻辑公式,就是⽤事先定义好的⼀些特定 字符、及这些特定字符的组合,组成⼀个“规则字符串”,这个“规则字符串”⽤ 来表达对字符串的⼀种过滤逻辑。⾮Python独有,re模块实现模式 描述 \w 匹配字母数字及下划线 \W 匹配非字母数字下划线 \s 匹配任意空白字符,等价于 [\t\n\r\f]. \S 匹配任意非空字符 \d 匹配任意数字,等价于 [0-9] \D.
2020-07-01 16:33:42 412 1
原创 python爬虫之Requests库详解
Requests库详解什么是RequestsRequests 是⽤Python语⾔编写,基于 urllib,采⽤ Apache2 Licensed 开源协议的 HTTP 库。它⽐ urllib 更加⽅便,可以节约我们⼤量的⼯作,完全满⾜ HTTP 测试需求。⼀句话——Python实现的简单易⽤的HTTP库安装requestspipinstall requests-i https://pypi.douban.com/simpleimport requestsr...
2020-07-01 00:31:32 356
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人