- 博客(5)
- 收藏
- 关注
原创 settings.py 设置文件
# 是否准守robot协议,默认(True)是准守协议的 ROBOTSTXT_OBEY = False scrapy框架中下载器能发起请求的最大并发量default: 16 根据需求自己设定 CONCURRENT_REQUESTS = 16 #DOWNLOAD_DELAY设置下载延时,默认是0 # (上一次请求和下一次请求的间隔时间) DOWNLOAD_DELAY = 0 # 设置是否携带c...
2019-09-19 19:25:39 585
原创 BeautifulSoup4,Pyquery,线程
CSS 选择器:BeautifulSoup4 Beautiful Soup 是基于HTML DOM的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多,所以性能要低于lxml。 用来解析 HTML 比较简单,API非常人性化,支持CSS选择器、Python标准库中的HTML解析器,也支持 lxml 的 XML解析器。 解析器 使用方法 Python标准库 Beau...
2019-09-10 19:49:51 99
原创 XPath的使用
爬虫入门之结构化的数据提取(Xpath) 什么是XPath? XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言,可用来在 XML 文档中对元素和属性进行遍历。 什么是XML? XML 指可扩展标记语言(EXtensible Markup Language) XML 是一种标记语言,很类似 HTML XML 的设计宗旨是传输数据,而非显示数据 XML ...
2019-09-09 19:31:14 113
原创 requests
Requests: 虽然Python的标准库中 urllib 模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests 自称 “HTTP for Humans”,说明使用更简洁方便。 requests 的底层实现其实就是 urllib Requests的文档非常完备,中文文档也相当不错。Requests能完全满足当前网络的需求,支持Python 2....
2019-09-09 19:12:22 76
原创 urrllib
urlib和re模块使用 re模块的方法 urllib库的基本使用 urlopen方法的使用 Request urllib的异常错误处理 处理HTTPS请求 SSL证书验证 . 匹配任意一个字符,除了\n ^ 匹配字符串的开头 $ 匹配字符串的结尾 匹配0个或多个的字符串 匹配1个或多个的字符串 ? 匹配0个或1个,为非贪婪方式 {n} 匹配n个的字符串 [a, b , c] 匹配 ‘a’ ...
2019-09-08 20:15:32 143
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人