Python3爬虫
文章平均质量分 88
Mikowoo007
这个作者很懒,什么都没留下…
展开
-
爬虫基础(一)HTTP基本原理
URIUniform Resource Identifier 统一资源标志符 URLUniversal Resource Locator 统一资源定位符 URNUniversal Resource Name 统一资源名称只命名资源不指定如何定位 URI=URL+URN URL是URI的子集,就是每个URL都是URI,但不是每个URI都是URL 访问资源协议类型 HT...原创 2018-12-29 17:10:26 · 346 阅读 · 0 评论 -
爬虫基本库的使用(urllib)
urllib库 是Python内置的HTTP请求库,含有4个模块 request 是最基本的HTTP请求模块,可以用来模拟发送请求 error 异常处理模块,如果出现请求错误,可以捕获异常然后进行重试或其他操作以保证程序不会意外终止 parse 一个工具模块,提供了许多URL处理方法 robotparser 主要是用来识别网站的robots.txt文件判断哪些网站可以爬,哪...原创 2018-12-31 18:15:12 · 182 阅读 · 0 评论 -
正则表达式(一)
简单的实例来演示 开源中国提供的正则表达式检测工具 待匹配文本 'Hello, my phone number is 010-86432100 and email is cqc@cuiqingcai.com, and my website is https://cuiqingcai.com' 正则表达式 [a-zA-z]+://[^\s]* a-z 代表匹配任意的小写字母 \s 表示匹配任...原创 2019-01-01 21:40:59 · 228 阅读 · 0 评论 -
Selenium 使用手册
官文参考文档链接 环境 python2.7 Selenium 2.42.1 pip install selenium==2.42.1 Chrome 浏览器驱动,需翻墙下载,并且将驱动添加到PATH环境变量中 自动化测试脚本小案例 from selenium import webdriver driver = webdriver.Chrome() driver.get("http://www.b...原创 2019-06-27 13:45:18 · 1568 阅读 · 0 评论