爬虫学习之路
文章平均质量分 83
学习爬虫所需要的知识整理
火柴先生
他正在悄悄关注你...
展开
-
HTTP请求过程、浏览器开发者工具使用介绍、请求头与响应头(常见响应状态码)
HTTP请求过程、浏览器开发者工具使用介绍、请求头与响应头(常见响应状态码)原创 2022-09-05 13:49:36 · 3342 阅读 · 0 评论 -
正则表达式——语法、re模块的使用(附示例)
正则表达式是处理字符串的强大工具,它有自己特定的语法结构,可以用来实现字符串的检索、替换、匹配验证。对于爬虫来说,有了它,从HTML里提取想要的信息也是非常的方便。优点:速度快,效率高,准确度高。缺点:新手上手难度有点高不过只要你掌握了正则编写的逻辑关系,写出一个提取页面内容的正则其实并不复杂。...原创 2022-08-18 13:11:32 · 477 阅读 · 0 评论 -
Requests库简单方法使用笔记
四个模块主要介绍几个自己不太熟悉或者常用的方法。demo也可通过add_header()来添加。主要用来进行一些其他高级操作(cookie、代理处理等)需要时再补充urllib.error 模块为 urllib.request 所引发的异常定义了异常类,基础异常类是 URLError。urllib.error 包含了两个方法,URLError 和 HTTPError。HTTPError是URLError的子类,拥有三个属性,分别是1.4 urllib.praseURL分成六部分(scheme(协议原创 2022-07-08 21:00:44 · 843 阅读 · 0 评论 -
如何用str.format()批量生成网址【以豆瓣读书为例】
目录1 用法说明1.1 写法1.2 举例2 应用:豆瓣读书2.1 初步2.2 分析URL2.3 生成参考链接:1 用法说明str.format() 方法通过字符串中的花括号 {} 来识别替换字段从而完成字符串的格式化。1.1 写法简单字段名有三种写法:省略不写 {}数字 {十进制非负整数}变量名 {合法的Python标识符}:在生成网址中可应用1.2 举例# 省略不写print("hello!{}".format('火柴先生'))#OUTPUT:hello!火柴先生# 变量名p原创 2021-09-03 21:22:43 · 2667 阅读 · 117 评论 -
【前端基础】快速入门CSS(选择器以及常用样式属性)
1 CSS的定义css(Cascading Style Sheet)层叠样式表,它是用来美化页面的一种语言。作用:美化界面, 比如: 设置标签文字大小、颜色、字体加粗等样式。控制页面布局, 比如: 设置浮动、定位等样式。2 引入方式2.1 行内式直接在标签的style属性中添加<div style="width:100px; height:100px; background:red ">hello</div>2.2 内嵌式(内部样式)在<head&转载 2021-03-19 20:32:12 · 516 阅读 · 20 评论 -
【爬虫】JSON、Ajax,来了解一下!
1 初识1.1 JSONJavaScript 对象表示法(JavaScript Object Notation)。是一种轻量级的数据交换格式,它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景,比如网站前台与后台之间的数据交互。它的格式和Python中的字典格式类似。{ "sites": [ { "name":"菜鸟教程" , "url":"www.runoob.com" }, { "name":"google" , "url":"ww原创 2021-07-24 19:49:41 · 6584 阅读 · 11 评论 -
【爬虫】Web基础——响应头、请求头、http&https、状态码(内含相关资源链接)
本文主要讲解了对于爬虫技术十分重要的响应头、请求头的相关信息,并附上十分不错的资源链接供参考。原创 2021-07-23 09:23:00 · 4103 阅读 · 75 评论