python爬虫
python 爬虫方向
陈年辣鸡
这个作者很懒,什么都没留下…
展开
-
数据提取之XPATH
#2.数据提取 #XPath语法和 lxml模块 Xpath是一门在XML和HTML文档中查找信息的语言 原本设计适用于XML的,但XML和HTML两者的语法极为相似,所以也可以使用HTML 谷歌浏览器下是XPATH 火狐浏览器下是TRY XPATH 360浏览器下也兼容XPATH,使用时需要打开开发者模式 #XPATH语法 name 选取name下所有子节点 / 指定路径,获取子节点 // ...原创 2019-12-04 20:07:24 · 348 阅读 · 0 评论 -
#requests库常用方法
#requests库 虽然标准的urllib库中模块已经包含了平时我们使用的大部分功能,但API终究还是不够友好,request再次基础上进行了封装,使用起来更加简洁 安装 pip install requests 其中文文档和github源码可以自己百度 中文文档:https://2.python-requests.org//zh_CN/latest/index.html github源码 :h...原创 2019-12-03 18:07:46 · 506 阅读 · 0 评论 -
urllib库的使用
urllib库 py3中最基本的一个网络请求库,可以模拟浏览器行为向指定服务器发送一个请求,并保存服务器返回的数据 1. urlopen函数 py2中网络请求的相关方法在urllib目录下,在py3中都被集到py3中 urllib.request 模块里了 from urllib import request ret = request.urlopen('http://www.hao123.com...原创 2019-12-02 21:52:20 · 264 阅读 · 0 评论 -
今天开始学爬虫
简述基础知识 什么是爬虫 模拟浏览器自动请求网页,然后按一定规则提取有价值的返回数据。 爬虫类型 1. 通用爬虫: 搜索引擎重要的组成部分,将网页数据无差别下载到本地,形成一个互联网内容的镜像备份。 2. 聚焦爬虫: 面向特定需求的网络爬虫,与通用爬虫不同的是,在请求和抓取数据的时候会进行内容上的筛选,只提取与自己需求相关的网页信息 为什么爬虫一般都使用Python 1. php 主要用户网...原创 2019-12-01 16:19:56 · 211 阅读 · 0 评论