![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
笔记
文章平均质量分 91
小零呦
这个作者很懒,什么都没留下…
展开
-
Python网络爬虫学习笔记(四)解析库的使用
解析库的使用使用正则表达式,比较烦琐,而且万一有地方写错了,可能导致匹配失败。对于网页的节点来说,有 id 、 class 或其他属性。 而且节点之间还有层次关系,在网页中可以通过 XPath 或 css 选择器来定位一个或多个节点 。 利用 XPath 或 css选择器来提取某个节点,然后再调用相应方法获取它的正文内容或者属性。在 Python 中,有 lxml 、Beautiful Soup 、 pyquery 等解析库实现这个操作。使用 XPathXPath , 全称 XML Path La原创 2020-12-19 16:52:32 · 984 阅读 · 2 评论 -
Python网络爬虫学习笔记(三)正则表达式
正则表达式正则表达式是处理字符串的强大工具,它有自己特定的语法结构,有了它,实现字符串的检索、替换、匹配验证。1 实例引入正则表达式匹配 ,也就是用一定的规则将特定的文本提取出来 。开源中国提供了正则表达式测试工具:https://tool.oschina.net/regex/例子:Hello, my phone number is 010-86432100 and email is cqc@cuiqingcai.com, and my website is https://cuiqingca原创 2020-12-13 18:03:28 · 209 阅读 · 1 评论 -
Python网络爬虫学习笔记(二)基本库的使用
基本库的使用最基础的 HTTP 库有 urllib 、 httplib2 、 requests 、 treq 等 。使用urliburlib 包含四个模块口 request : 它是最基本的 HTTP 请求模块,可以用来模拟发送请求 。 就像在浏览器里输入网址,然后回车一样,只需要给库方法传入 URL 以及额外的参数,就可以模拟实现这个过程了 。口 error : 异常处理模块,如果出现请求错误 , 我们可以捕获这些异常,然后进行重试或其他操作以保证程序不会意外终止 。口 parse : 一个工原创 2020-12-13 08:47:46 · 784 阅读 · 0 评论 -
Python 网络爬虫学习笔记(一)HTTP基本原理
Python 网络爬虫学习笔记(一)HTTP基本原理URI和URLURI:统一资源标识符(Uniform Resource Identifier)URL:统一资源定位符(Uniform Resource Locator)URL是URI的子集例:https://github.com/favicon.ico 是GitHub的网站图标链接,它是一个URL,也是一个URI。(访问协议:https、访问路径(/即根目录)和资源名称favicon.ico)URN:统一资源名称(Uniform Resou原创 2020-12-08 12:55:59 · 595 阅读 · 0 评论