![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python爬虫
HYJ0101
这个作者很懒,什么都没留下…
展开
-
python爬虫常用模块-xpath以及lxml
一、模块介绍以及安装xpath是一个html元素选择器,这个模块是存在lxml库中,安装lxml库后就可以直接使用xpathpip install lxml 二、Xpath术语节点在 XPath 中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档(根)节点。XML 文档是被作为节点树来对待的。树的根被称为文档节点或者根节点<?xml version="1....原创 2020-05-06 19:35:03 · 887 阅读 · 0 评论 -
python爬虫主要模块-requests
reuqestsrequests是使用Apache2 licensed 许可证的HTTP库。可使用其发起http请求,比urllib2模块更简洁。一、Get请求r = requests.get(url,headers=headers,cookies=cookie)传递参数你也许经常想为 URL 的查询字符串(query string) 传递某种数据。如果你是手工构建 URL,那么数据...原创 2020-04-30 19:00:32 · 188 阅读 · 0 评论 -
python爬虫流程和主要注意事项
爬虫的主要工作流程设定抓取目标(种子页面/起始页面)并获取网页当服务器无法访问时,按照指定的重试次数尝试重新下载页面在需要的时候设置用户代理或隐藏真实IP,否则可能无法访问页面对获取的页面进行必要的解码操作然后抓取出需要的信息在获取的页面中通过某种方式(如正则表达式)抽取出页面中的链接信息对链接进行进一步的处理(获取页面并重复上面的动作)将有用的信息进行持久化以备后续的处理爬虫...原创 2020-04-13 17:25:02 · 807 阅读 · 0 评论