爬虫-Python
Python 学习
SiskinXu
这个作者很懒,什么都没留下…
展开
-
4. 解析库的使用
使用XPath XPath常用规则 表达式 描述 nodename 选取此节点的所有子节点 / 从当前节点选取直接子节点 // 从当前节点选取子孙节点 . 选取当前节点 .. 选取当前节点的父节点 @ 选取属性 lxml.etree(htmlText) 构造一个XPath解析对象,自动修正HTML,比如自动补足缺失的HTML标...原创 2020-04-07 20:46:45 · 588 阅读 · 0 评论 -
3. 用request和正则表达式(re)爬取懒人图库图片
用request和正则表达式(re)爬取懒人图库图片 import urllib.request import urllib.error import re #公共类,获得页面的HTMLContent class HTMLPageCode(): charSet = "gb2312" @staticmethod def getPage(inURL): try...原创 2020-04-06 19:48:26 · 428 阅读 · 0 评论 -
3. 基本库的使用
使用urllib urllib 包括四个模块:request,error,parse,robotparser urllib.request.urlopen() 返回一个 http.client.HTTPResponse对象 包含: read()、readinto()、getheader(name)、getheaders()、fileno() 用status属性可以得到返回结果的状态码 u...原创 2020-04-05 17:08:24 · 1219 阅读 · 0 评论 -
2. 爬虫基础
HTTP 原理 URI : Uniform Resource Identifier 统一资源标识符 URL : Universal Resource Locator 统一资源定位符 URN : Universal Resource Name 统一资源名称,只命名资源而不指定如何定位资源 HTTP : Hyper Text Transfer Protocol 超文本传输协议 HTTPS :...原创 2020-04-04 16:05:23 · 143 阅读 · 0 评论 -
1. 解析库的安装
1. 请求库的安装 Request 库的安装 pip install request Requests 库的安装 这是一个第三方请求库 pip install requests Wheel 的安装 Wheel是Python的一种安装包,可以先下载.whl文件后,再用pip安装软件包 pip install wheel Selenium 的安装 Selenium是一个自动化测试工...原创 2020-04-03 20:39:17 · 1317 阅读 · 0 评论