![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python3爬虫
文章平均质量分 88
Mikowoo007
这个作者很懒,什么都没留下…
展开
-
爬虫基础(一)HTTP基本原理
URIUniform Resource Identifier统一资源标志符URLUniversal Resource Locator统一资源定位符URNUniversal Resource Name统一资源名称只命名资源不指定如何定位URI=URL+URNURL是URI的子集,就是每个URL都是URI,但不是每个URI都是URL访问资源协议类型HT...原创 2018-12-29 17:10:26 · 330 阅读 · 0 评论 -
爬虫基本库的使用(urllib)
urllib库是Python内置的HTTP请求库,含有4个模块request是最基本的HTTP请求模块,可以用来模拟发送请求error异常处理模块,如果出现请求错误,可以捕获异常然后进行重试或其他操作以保证程序不会意外终止parse一个工具模块,提供了许多URL处理方法robotparser主要是用来识别网站的robots.txt文件判断哪些网站可以爬,哪...原创 2018-12-31 18:15:12 · 166 阅读 · 0 评论 -
正则表达式(一)
简单的实例来演示开源中国提供的正则表达式检测工具待匹配文本'Hello, my phone number is 010-86432100 and email is cqc@cuiqingcai.com, and my website is https://cuiqingcai.com' 正则表达式[a-zA-z]+://[^\s]*a-z 代表匹配任意的小写字母\s 表示匹配任...原创 2019-01-01 21:40:59 · 210 阅读 · 0 评论 -
Selenium 使用手册
官文参考文档链接环境 python2.7Selenium 2.42.1pip install selenium==2.42.1Chrome 浏览器驱动,需翻墙下载,并且将驱动添加到PATH环境变量中自动化测试脚本小案例from selenium import webdriverdriver = webdriver.Chrome()driver.get("http://www.b...原创 2019-06-27 13:45:18 · 1528 阅读 · 0 评论