自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 settings.py 设置文件

# 是否准守robot协议,默认(True)是准守协议的 ROBOTSTXT_OBEY = False scrapy框架中下载器能发起请求的最大并发量default: 16 根据需求自己设定 CONCURRENT_REQUESTS = 16 #DOWNLOAD_DELAY设置下载延时,默认是0 # (上一次请求和下一次请求的间隔时间) DOWNLOAD_DELAY = 0 # 设置是否携带c...

2019-09-19 19:25:39 585

原创 BeautifulSoup4,Pyquery,线程

CSS 选择器:BeautifulSoup4 Beautiful Soup 是基于HTML DOM的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多,所以性能要低于lxml。 用来解析 HTML 比较简单,API非常人性化,支持CSS选择器、Python标准库中的HTML解析器,也支持 lxml 的 XML解析器。 解析器 使用方法 Python标准库 Beau...

2019-09-10 19:49:51 99

原创 XPath的使用

爬虫入门之结构化的数据提取(Xpath) 什么是XPath? XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言,可用来在 XML 文档中对元素和属性进行遍历。 什么是XML? XML 指可扩展标记语言(EXtensible Markup Language) XML 是一种标记语言,很类似 HTML XML 的设计宗旨是传输数据,而非显示数据 XML ...

2019-09-09 19:31:14 113

原创 requests

Requests: 虽然Python的标准库中 urllib 模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests 自称 “HTTP for Humans”,说明使用更简洁方便。 requests 的底层实现其实就是 urllib Requests的文档非常完备,中文文档也相当不错。Requests能完全满足当前网络的需求,支持Python 2....

2019-09-09 19:12:22 76

原创 urrllib

urlib和re模块使用 re模块的方法 urllib库的基本使用 urlopen方法的使用 Request urllib的异常错误处理 处理HTTPS请求 SSL证书验证 . 匹配任意一个字符,除了\n ^ 匹配字符串的开头 $ 匹配字符串的结尾 匹配0个或多个的字符串 匹配1个或多个的字符串 ? 匹配0个或1个,为非贪婪方式 {n} 匹配n个的字符串 [a, b , c] 匹配 ‘a’ ...

2019-09-08 20:15:32 143

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除