qq1735036885-CSDN博客

原创 settings.py 设置文件

# 是否准守robot协议，默认（True）是准守协议的 ROBOTSTXT_OBEY = False scrapy框架中下载器能发起请求的最大并发量default: 16 根据需求自己设定 CONCURRENT_REQUESTS = 16 #DOWNLOAD_DELAY设置下载延时，默认是0 # （上一次请求和下一次请求的间隔时间） DOWNLOAD_DELAY = 0 # 设置是否携带c...

2019-09-19 19:25:39 585

原创 BeautifulSoup4,Pyquery,线程

CSS 选择器：BeautifulSoup4 Beautiful Soup 是基于HTML DOM的，会载入整个文档，解析整个DOM树，因此时间和内存开销都会大很多，所以性能要低于lxml。用来解析 HTML 比较简单，API非常人性化，支持CSS选择器、Python标准库中的HTML解析器，也支持 lxml 的 XML解析器。解析器使用方法 Python标准库 Beau...

2019-09-10 19:49:51 99

原创 XPath的使用

爬虫入门之结构化的数据提取（Xpath）什么是XPath？ XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言，可用来在 XML 文档中对元素和属性进行遍历。什么是XML？ XML 指可扩展标记语言（EXtensible Markup Language） XML 是一种标记语言，很类似 HTML XML 的设计宗旨是传输数据，而非显示数据 XML ...

2019-09-09 19:31:14 113

原创 requests

Requests: 虽然Python的标准库中 urllib 模块已经包含了平常我们使用的大多数功能，但是它的 API 使用起来让人感觉不太好，而 Requests 自称 “HTTP for Humans”，说明使用更简洁方便。 requests 的底层实现其实就是 urllib Requests的文档非常完备，中文文档也相当不错。Requests能完全满足当前网络的需求，支持Python 2....

2019-09-09 19:12:22 76

原创 urrllib

urlib和re模块使用 re模块的方法 urllib库的基本使用 urlopen方法的使用 Request urllib的异常错误处理处理HTTPS请求 SSL证书验证 . 匹配任意一个字符，除了\n ^ 匹配字符串的开头 $ 匹配字符串的结尾匹配0个或多个的字符串匹配1个或多个的字符串？匹配0个或1个，为非贪婪方式 {n} 匹配n个的字符串 [a, b , c] 匹配 ‘a’ ...

2019-09-08 20:15:32 143

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人