python3爬虫
mzm5466
这个作者很懒,什么都没留下…
展开
-
Python3爬虫系列整理(一) urllib包
Python3爬虫系列整理(一) urllib包urllib简介爬虫过程中经常会用到一个叫urllib的包,urllib是python的内置一个包,他能够模拟发送http请求1.基本方法直接用urllib.request模块的urlopen()获取页面,page的数据格式为bytes类型,需要decode()解码,转换成str类型。from urllib import requestr...转载 2019-06-10 09:23:46 · 203 阅读 · 0 评论 -
Python3爬虫系列整理(二)requests
Python3爬虫系列整理(二)requests第三方库requests是python实现的简单易用的HTTP库,使用起来比urllib简洁很多****是指从客户端到服务器端的请求消息。包括:消息首行中,对资源的请求方法、资源的标识符及使用的协议。****因为是第三方库,所以使用前需要cmd安装pip install requests安装完成后import一下,正常则说明可以开始使用了...转载 2019-06-10 10:13:45 · 176 阅读 · 0 评论 -
Python3爬虫系列整理(三)re正则表达式库
Python3爬虫系列整理(三)re正则表达式库1. 匹配介绍1.1 正则表达式介绍在编程中,字符串是涉及到的最多的一种数据结构,对字符串进行操作的需求几乎无处不在。比如判断一个字符串是否是合法的Email地址,虽然可以编程提取@前后的子串,再分别判断是否是单词和域名,但这样做不但麻烦,而且代码难以复用。正则表达式是一种用来匹配字符串的强有力的武器。它的设计思想是用一种描述性的语言来给字...原创 2019-06-10 10:33:28 · 535 阅读 · 0 评论 -
Python3爬虫系列整理(四)lxml库
Python3爬虫系列整理(四)lxml库1 lxml安装**:pip3 install lxmllxml,使用的是xpath的语法xpath 是一门在 XML 文档中查找信息的语言。(遵循xml,html的树形结构)xpath 可用来在 XML,html 文档中对元素和属性进行遍历。lxml是python的一个解析库,支持HTML和XML的解析,支持XPath解析方式,而且解析效率...转载 2019-06-10 11:25:10 · 381 阅读 · 0 评论 -
Python3爬虫系列整理(五)BeautifulSoup库
5.1 Beautiful Soup上面我们介绍了正则表达式,它的内容其实还是蛮多的,如果一个正则匹配稍有差池,那可能程序就处在永久的循环之中,而且有的小伙伴们也对写正则表达式的写法用得不熟练,没关系,我们还有一个更强大的工具,叫Beautiful Soup,有了它我们可以很方便地提取出HTML或XML标签中的内容,实在是方便,这一节就让我们一起来感受一下Beautiful Soup的强大吧...转载 2019-06-11 08:11:46 · 267 阅读 · 0 评论