python数据爬虫技术与实战手册电子版_《python数据爬取 技术与实战手册》

1. HTML

HTML文件基本构成

//声明为html5文档

//语言属性为英文

//声明编码方式为 UTF-8

//页面标题

//

结束

//标题 从

由大到小

//段落

属性

HTML标签可以在开始标签中添加属性,为HTML标签提供一些附加信息

比如说

//对齐方式

//id属性是标签在网页的唯一标识

<>

有一些在网页中经常看到的元素,比如超链接,图像,表格,列表,表单等

1.超链接

一般用包含href属性的标签创建超链接,标签一般包含三个属性,

存放要跳转到的目标网址

决定点开链接后,目标网页在何处出现,默认为"_self"

Baidu

Baidu

Baidu //新标签页

Baidu //当前页面

Baidu //父窗口?

2.图像

标签为 ,为空标签,即只有属性,没有闭合标签

一般有两个属性 源地址(src)和替代文件(alt)

替代文本

alt属性的作用是在src无法加载时显示替代文本,有利于用户在网络不畅的情况下了解图片内容

3.表格

标签,首先用分行 (table row),再用 分格(table date)
12
34

效果

4.列表

分为两类,有序列表和无序列表 ,其中包含

(list item)
  • 123
  • 456

效果

有序列表 (ordered list)
  1. 123
  2. 456

效果

5.表单

一般用来做输入框,表单元素最重要的元素是,也是一个没有结束标签的空标签,主要用于收集用户输入

re库

python中正则表达式功能都集成在re模块中

match()和search()

match() 必须从头开始匹配

search() 全部

若匹配成功,返回一个对象,否则null,该对象有两个方法:

group()

groups()

若正则表达式中无分组,group()返回匹配结果,groups ()返回空元组

若正则表达式中有分组,group()和group(0)返回整个匹配结果,group(n)返回第n个分组的匹配结果,groups()返回元组,元素为每一组的匹配结果

findall() : 返回列表包含所有匹配的子串,如果包含分组,则只返回分组的那一部分,如果有多个分组,以列表嵌套元组返回

split() : 返回列表,表示字符串被某字符分解

sub() : sun(a,b,c) 用b替换c中的a, 或者

import re

r = 'a'

r = re.compile(r)

a = ' a bcdefg'

print(r.sub('s', a))

这两种方法都是返回替换后的字符串,字符串本身不变

compile() : 将正则表达式字符串预编译,在数据较大情况下可加快速度

进阶教程看:https://download.csdn.net/download/dwf1354046363/20818516 1 爬虫基本概述2 1.1 爬虫是什么. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2 爬虫可以做什么. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.3 爬虫的分类. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.4 爬虫的基本流程. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.4.1 浏览网页的流程. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.4.2 爬虫的基本流程. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.5 爬虫与反爬虫. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.5.1 爬虫的攻与防. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.5.2 常见的反爬与反反爬. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.6 爬虫的合法性与robots 协议. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.6.1 robots 协议. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.6.2 查看网页的robots 协议. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.7 Python 爬虫相关库 2 Chrome 浏览器开发者工具10 2.1 Chrome 浏览器开发者工具简述. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.1.1 什么是浏览器开发者工具. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.1.2 浏览器开发者工具基本使用. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.2 浏览器开发者工具面板说明. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.2.1 元素(Elements) 面板. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.2.2 网络(Network) 面板(1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.2.3 网络(Network) 面板(2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 3 HTTP 协议16 3.1 HTTP 简介. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值