爬虫
文章平均质量分 88
爬虫
牧羊小董
这个作者很懒,什么都没留下…
展开
-
HTTP基本原理、爬虫的基本原理、会话和Cookie——学习笔记
一、URI 和 URLURI:统一资源标志符URL:统一资源定位符URN:统一资源名称URI = URL + URN二、超文本pass三、HTTP 和 HTTPSHTTP:超文本传输协议;用于从网络传输超文本数据到本地浏览器的协议HTTPS:是HTTP协议的安全版,即HTTP下加入SSL层。通过HTTPS传输的内容都是经过SSL加的四、HTTP请求过程浏览器向网站所在服务器发送请求,网站服务器接收到请求后对请求进行处理和解析,然后返回对应的的响应,接着将响应传回给浏览器。响应里包含原创 2021-01-30 07:47:06 · 156 阅读 · 0 评论 -
爬虫urllib库的基本使用——学习笔记
一、使用urlliburllib库的四大模块:urllib.request:最基本的HTTP请求模块,可以用来模拟请求urllib.error:异常处理模块urllib.parse:一个工具模块,提供了许多URL处理方法,比如拆分、解析、合并等urllib.robotparser:用来识别网站的robots.txt文件(1)发送请求1、urlopen()import urllib.requestresponse = urlib.request.urlopen("https://www原创 2021-01-31 23:49:56 · 942 阅读 · 0 评论 -
爬虫request库的使用——学习笔记
使用requests一、基本用法1、准备工作安装request库。pip install request2、实例引入request库中以GET方式请求网页的方法就是get()方法import requestsr = requests.get('https://www.baidu.com/')print(type(r))print(r.status_code)print(type(r.text))print(r.text)print(r.cookies)'''运行结果:&原创 2021-02-07 19:12:09 · 2270 阅读 · 0 评论 -
正则表达式(Python re模块)——学习笔记
正则表达式正则表达式是处理字符串的强大工具,一、实例引入进入网站http://tool.oschina.net/regex/输入待匹配的文本:Hello, my phone number is 010-86432100 and email is cqc@cuiqingcai.com输入正则表达式:[a-zA-Z]+://[^\s]*在网页右边选择“匹配Email地址”,就可以看到下方出现了文本中的E-mail。对于URL来说,就可以使用下面的正则表达式去匹配[a-zA-Z]+://[^原创 2021-02-11 08:05:10 · 240 阅读 · 0 评论 -
解析库的使用——学习笔记
一、XPath全称:XML Path Language,即XML路径语言。1、XPath概念XPath提供了非常简洁明了的路径选择表达式。还提供了100个内键函数,用于字符串、数值、时间的匹配以及节点、序列的处理等。2、XPath常用规则XPath常用规则表达式描述nodename选取此节点的所有子节点/从当前节点选取直接子节点//从当前节点选择子孙节点.选取当前节点…选取当前节点的父节点@选取属性举例://title[@la原创 2021-02-16 16:32:06 · 616 阅读 · 0 评论 -
数据存储——学习笔记
一、文件存储TXT文件存储打开方式模式说明r以只读模式打开文件。文件的指针将会放在文件开头。这是默认模式rb以二进制只读方式打开文件。文件的指针会放在文件开头。r+以读写方式打开文件。文件的指针将会放在文件开头。rb+以二进制读写方式打开文件。文件指针将会放在文件的开头。w以写入的模式打开文件。如果该文件已存在,则将其覆盖。如果该文件不存在则创建新文件。wb以二进制写入模式打开文件。如果文件已存在,则将其覆盖。如果该文件不存在,则创建新文件原创 2021-02-25 14:25:05 · 1446 阅读 · 0 评论