爬虫
路过的风666
https://github.com/ThePassedWind
展开
-
lxml解析器的使用
lxml lxml是一个HTML/XML的解析器,主要的功能是解析和提取HTML/XML数据。 lxml和正则一样,用C实现的,是一种高性能的python HTML/XML解析器,我们可以利用之前学习的XPath语法,快速定位特定元素以及节点信息。 基本使用 1、导入相应的库: from lxml import etree 2、解析html字符串,可以直接使用 lxml.etree.HTML 进行解析: # 解析已有html字符串 def parse_text(): # 默认为HTML解析器原创 2020-05-31 23:49:08 · 2181 阅读 · 0 评论 -
requests库的基本函数使用
requests库 发送GET请求 1、最简单的发送 get 请求: import requests response = requests.get("https://www.baidu.com/") # 查看响应内容,按猜测的方式解码后的数据 print(type(response.text)) # <class 'str'> print(response.text) # 出现乱码 # 查看响应内容,对utf-8编码的字符串,即显示中文 print(type(response.cont原创 2020-05-24 21:38:09 · 1352 阅读 · 0 评论 -
HTTP的基本认识
HTTP 什么是HTTP? 超文本传输协议,专门用于Web通信 安全、加密 http: 普通http协议,不安全,已在逐步替代 https: 安全(security)http协议,RSA非对称加密,理论上无可接受的破解方案 版本 http1.0:早期的版本,已废弃 http1.1:现行http版本,具有持久连接特性 http2.0:最新的http版本,尚未普及,具有多路复用、优先级、推送等高级特性 理解HTTP 通信过程 注:消息(HTTP Message),其他叫法——报文、实体、数据、帧原创 2020-05-24 21:12:01 · 237 阅读 · 0 评论 -
urllib库的基本函数使用及cookie的基本概念
urllib库 最基本的网络请求库。可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据。 在python3的urllib库中,所有和网络请求相关的方法,都被集成到urllib.request模块下面了。 urlopen函数: from urllib import request resp = request.urlopen('http://www.baidu.com') print(resp.read(10)) print(resp.readline()) print(resp原创 2020-05-24 20:53:15 · 717 阅读 · 0 评论