【Python爬虫】Python爬虫开发：从入门到实战(谢乾坤)[1-3]

最新推荐文章于 2022-10-02 16:55:54 发布

EasyLake

最新推荐文章于 2022-10-02 16:55:54 发布

阅读量1.2k

点赞数

分类专栏： Python

本文链接：https://blog.csdn.net/EasyLake/article/details/107215799

版权

Python 专栏收录该内容

4 篇文章 1 订阅

订阅专栏

在这里插入图片描述

第2章 Python 基础

2.3 Python的数据结构和控制结构

元组和列表的区别：

列表生成以后还可以往里面继续添加数据，也可以从里面删除数据；但是元组一旦生成就不能修改。如果它里面只有整数、浮点数、字符串、另一个元组，就既不能添加数据，也不能删除数据，还不能修改里面数据的值。但是如果元组里面包含了一个列表，那么这个元组里面的列表依旧可以变化。

切片操作

格式为：

变量名[开始位置下标：结束位置下标：步长]

切片的结果包括“开始位置下标”所对应的元素，但是不包括“结束位置下标”所对应的元素。

列表末尾添加元素

Append，例如：

   >>> list_4 = ['Python', ’爬虫’]
    >>> print(list_4)
    ['Python', ’爬虫’]
    >>> list_4.append(’一’)
    >>> print(list_4)
    ['Python', ’爬虫’, ’一’]
    >>> list_4.append(’酷’)
    >>> print(list_4)
    ['Python', ’爬虫’, ’一’, ’酷’]

元组和字符串不能添加新的内容，不能修改元组里面的非可变容器元素，也不能修改字符串里面的某一个字符。

通过Key来从字典中读取对应的Value，

有3种主要的格式：

    变量名[key]
    变量名.get(key)
    变量名.get(key, ’在找不到key的情况下使用这个值’)

例如：

    >>> example_dict = {'superman': ’超人是一个可以在天上飞的两足兽’, ’天才’: ’天才跑在时代的前面，把时代拖得气喘吁吁。',

    'xx': 0, 42: '42是一切的答案’}
    >>> print(example_dict[’天才’])
    天才跑在时代的前面，把时代拖得气喘吁吁。
    >>> print(example_dict.get(42))
    42是一切的答案
    >>> print(example_dict.get(’不存在的key'))
    None
    >>> print(example_dict.get(’不存在的key', ’找不到’))
    找不到

使用方括号的方式来读取字典的Value时，一定要保证字典里面有这个Key和它对应的Value，否则程序会报错。
使用get来读取，如果get只有一个参数，那么在找不到Key的情况下会得到“None”；如果get有两个参数，那么在找不到Key的情况下，会返回第2个参数。

修改已存在字典的Key对应Value/增加新的Key-Value对

变量名[key] = ’新的值’

如果Key不存在，就会创建新的Key-Value对；如果Key已经存在，就会修改它的原来的Value。例如：

  >>> existed_dict = {'a': 123, 'b': 456}
    >>> print(existed_dict)
    {'b': 456, 'a': 123}
    >>> existed_dict['b'] = ’我修改了b'
    >>> print(existed_dict)
    {'b': ’我修改了b', 'a': 123}
    >>> existed_dict['new'] = ’我来也’
    >>> print(existed_dict)
    {'b': ’我修改了b', 'a': 123, 'new': ’我来也’}

需要特别注意的是，字典的Key的顺序是乱的，所以不能认为先添加到字典里面的数据就排在前面。

集合去重

集合最大的应用之一就是去重。
例如，把一个带有重复元素的列表先转换为集合，再转换回列表，那么重复元素就只会保留一个。 把列表转换为集合需要使用set()函数，把集合转换为列表使用list()函数：

duplicated_list = [3, 1, 3, 2, 4, 6, 6, 7, 's', 's', 'a']
unique_list = list(set(duplicated_list))
print(unique_list)

[1, 2, 3, 4, 's', 6, 7, 'a']

由于集合与字典一样，里面的值没有顺序，因此使用集合来去重是有代价的，代价就是原来列表的顺序也会被改变。

使用字典实现多重条件控制

如果有多个if，写起来会很烦琐，例如下面这一段代码：

  if state == 'start':
      code = 1
    elif state == 'running':
      code = 2
    elif state == 'offline':
      code = 3
    elif state == 'unknown':
      code = 4
    else:
      code = 5

使用“if…elif…else…”会让代码显得冗长。如果使用字典改写，代码就会变得非常简洁：

    state_dict = {'start': 1,'running': 2, 'offline': 3, 'unknown': 4}
    code = state_dict.get(state, 5)

for循环

for 循环从列表中取出每个元素

name_list=['a','b','c','d']
for name in name_list:
    print(name)

for循环从每个字符串里面获得一个字符

title="大家好，我叫EasyLake"
for character in title:
    print (character)

这里的每一个汉字、每一个字母、每一个标点符号都会被for循环分开读取。循环第1次得到的是“大”，第2次得到的是“家”，第3次得到的是“好”，以此类推。
在做爬虫的时候会遇到需要把列表展开的情况，常犯的一个错误就是把字符串错当成了列表展开。这个时候就会得到不正常的结果。

for循环把字典展开得到里面每一个key

menu_dict = {'红烧肉':'100元','水煮肉片':'50元','鸡汤':'1角'}
for key in menu_dict:
    print('菜品：{}'.format(key))
    print('价格：{}'.format(menu_dict[key]))
    print("---------------")

通过指定range里面的数字，可以控制循环的执行次数。需要特别注意的是，i是从0开始的。

在某些特殊的情况下，确实需要循环永远运行，这个时候需要这样写：

    import time
    while True:
      你要执行的代码
      time.sleep(1)

如果要让循环永久运行，那么增加一个延迟时间是非常有必要的。time.sleep()的参数为一个数字，单位为秒。如果不增加这个延迟时间，就会导致循环超高速运行。在爬虫的开发过程中，如果超高速运行，很有可能导致爬虫被网站封锁。

第3章正则化表达式与文件操作

3.1 .1正则表达式的基本符号

1. 点号“.”：一个点号可以代替除了换行符以外的任何一个字符

一个点号可以代替除了换行符以外的任何一个字符，包括但不限于英文字母、数字、汉字、英文标点符号和中文标点符号。例如，有如下几个不同的字符串：

kingname
kinabcme
kin123me
kin我是谁me
kin嗨你好me
kin"m"me`

这些字符串的前3个字符都是“kin”，后两个字符都是“me”，只有中间的3个字符不同。如果使用点号来表示，那么全部都可以变成kin…me的形式，中间有多少个字就用多少个点。

2．星号“＊”

只有一个星号 *：它前面的子表达式0次到无限次

一个星号表示它前面的一个子表达式（普通字符、另一个或几个正则表达式符号）0次到无限次。
例如，有如下几个不同的字符串：

 如果快乐你就笑哈
    如果快乐你就笑哈哈
    如果快乐你就笑哈哈哈哈
    如果快乐你就笑哈哈哈哈哈哈哈哈哈

这些字符串里面，“哈”字重复出现，所以如果用星号来表示，那么就可以全部变成：

如果快乐你就笑哈*
如果快乐你就笑*

由于星号可以表示它前面的字符0次，所以即使写成“如果快乐你就笑”，没有“哈”字，也是满足这个正则表达式的。

一个点号+一个星号 .*

既然星号可以表示它前面的字符，那么如果它前面的字符是一个点号呢？例如下面这个正则表达式：

    如．*哈

它表示在“如”和“哈”中间出现“任意多个除了换行符以外的任意字符”。这句话看起来有点绕，用下面几个字符串来说明，它们全部都可以用上面的这个正则表达式来表示：

    如哈
    如果快乐哈
    如果快乐你就笑哈
    如果你知道1+1=2那么请计算地球的半径哈
    如aklsdjfjaf哈

3．问号“? ”

问号表示它前面的子表达式0次或者1次。注意，这里的问号是英文问号。
例如下面这两个不同的字符串：

 笑起来。
 笑起来哈。

在汉字“来”和中文句号之间有0个或者1个“哈”字，都可以使用下面这个正则表达式来表示：

    笑起来哈？。

点号+星号+问号 .*?

问号最大的用处是与点号和星号配合起来使用，构成“.*? ”。通过正则表达式来提取信息的时候，用到最多的也是这个组合。
下面的所有字符串：

    如哈
    如果快乐哈
    如果快乐你就笑哈
    如果你知道1+1=2那么请计算地球的半径哈
    如aklsdjfjaf哈

都可以用下面这个正则表达式来表示：
如．*？哈`

.* 和.* ？d 的区别：
前者为贪婪模式，获取最长的满足条件的字符串；后者为非贪婪模式，获取最短的能满足条件的字符串。
前者最多只能匹配一个，后者可以匹配多个。

4.反斜杠/

反斜杠不仅可以把特殊符号变成普通符号，还可以把普通符号变成特殊符号。例如“n”只是一个普通的字母，但是“\n”代表换行符。
在这里插入图片描述

5．数字“\d”：表示一位数字

正则表达式里面使用“\d”来表示一位数字。为什么要用字母d呢？因为d是英文“digital（数字）”的首字母。
再次强调一下，“\d”虽然是由反斜杠和字母d构成的，但是要把“\d”看成一个正则表达式符号整体。
如果要提取两个数字，可以使用\d\d；如果要提取3个数字，可以使用\d\d\d。但是如果不知道这个数有多少位怎么办呢？就需要用*号来表示一个任意位数的数字。
下面一段字符串：

    是123455677，请记住它。
    是1，请记住它。
    是66666，请记住它。

全部都可以使用下面这个正则表达式来表示：

\d*：一个任意位数的数字。

6．小括号“()”：把括号里面的内容提取出来。

前面讲到的符号仅仅能让正则表达式“表示”一串字符串。但是如果要从一段字符串中“提取”出一部分的内容应该怎么办呢？这个时候就需要使用小括号了。
有如下一个字符串：
我的密码是：12345abcde你帮我记住。
可以看出，这里的密码左边有一个英文冒号，右边有一个汉字“你”。当构造一个正则表达式：.*？你时，得到的结果将会是：
:12345abcde你
然而，冒号和汉字“你”并不是密码的一部分，如果只想要“12345abcde”，就需要使用括号：
:(.*? )你
得到的结果就是：
12345abcde

3.1.2在Python中使用正则表达式

Python的正则表达式模块名字为“re”，也就是“regular expression”的首字母缩写。在Python中需要首先导入这个模块再进行使用。导入的语句为：
import re

1．findall:以列表的形式返回所有满足要求的字符串

Python的正则表达式模块包含一个findall方法，它能够以列表的形式返回所有满足要求的字符串。
findall的函数原型为：
re.findall(pattern, string, flags=0)
pattern表示正则表达式，string表示原来的字符串，flags表示一些特殊功能的标志。
findall的结果是一个列表，包含了所有的匹配到的结果。如果没有匹配到结果，就会返回空列表。
当需要提取某些内容的时候，使用小括号将这些内容括起来，这样才不会得到不相干的信息。如果包含多个“(.? )”怎么返回呢？如图3-2所示，返回的仍然是一个列表，但是列表里面的元素变为了元组，元组里面的第1个元素是账号，第2个元素为密码。

图3-2 多个括号内的内容会以元组形式返回
请注意代码中的冒号和逗号，图3-1代码中为中文冒号和中文逗号；图3-2代码中为英文冒号和英文逗号。在实际使用正则表达式的过程中，中英文标点符号混淆常常会导致各种问题。特别是冒号、逗号和引号，虽然中英文看起来非常相似，但实际上中文冒号和英文冒号是不一样的，中文逗号和英文逗号也是不一样的。在某些字体里面，这种差异甚至无法察觉，因此在涉及正则表达式中的标点符号时，最好直接复制粘贴，而不要手动输入。
函数原型中有一个flags参数。这个参数是可以省略的。当不省略的时候，具有一些辅助功能，例如忽略大小写、忽略换行符等。这里以忽略换行符为例来进行说明，如图3-3所示。

图3-3 使用re.S作为flag来忽略换行符
在爬虫的开发过程中非常容易出现这样的情况，要匹配的内容存在换行符“\n”。要忽略换行符，就需要使用到“re.S”这个flag。虽然说匹配到的结果中出现了“\n”这个符号，不过总比什么都得不到强。内容里面的换行符在后期清洗数据的时候把它替换掉即可。

V3-6 search的使用
2．search
search()的用法和findall()的用法一样，但是search()只会返回第1个满足要求的字符串。一旦找到符合要求的内容，它就会停止查找。对于从超级大的文本里面只找第1个数据特别有用，可以大大提高程序的运行效率。
search()的函数原型为：

re.search(pattern, string, flags=0)
对于结果，如果匹配成功，则是一个正则表达式的对象；如果没有匹配到任何数据，就是None。如果需要得到匹配到的结果，则需要通过.group()这个方法来获取里面的值，如图3-4所示。

图3-4 使用.group()来获取search()方法找到的结果
只有在.group()里面的参数为1的时候，才会把正则表达式里面的括号中的结果打印出来。
group()的参数最大不能超过正则表达式里面括号的个数。参数为1表示读取第1个括号中的内容，参数为2表示读取第2个括号中的内容，以此类推，如图3-5所示。

图3-5 .group()的参数意义

V3-7 (.)和(.? )的区别
3．“.”和“.? ”的区别
在爬虫开发中，.？这3个符号大多数情况下一起使用。
点号表示任意非换行符的字符，星号表示匹配它前面的字符0次或者任意多次。所以“.”表示匹配一串任意长度的字符串任意次。这个时候必须在“.”的前后加其他的符号来限定范围，否则得到的结果就是原来的整个字符串。
如果在“.”的后面加一个问号，变成“.? ”，那么可以得到什么样的结果呢？问号表示匹配它前面的符号0次或者1次。于是．？的意思就是匹配一个能满足要求的最短字符串。
这样说起来还是非常抽象，下面通过一个实际的例子来进行说明。请看下面这一段话：

我的微博密码是：1234567, QQ密码是：33445566, 银行卡密码是：888888, Github密码是：999abc999，帮我记住它们
这段话有一个显著的规律，即密码是：xxxxxx, ”，也就是在“密码是”这3个汉字的后面跟一个中文的冒号，冒号后面是密码，密码后面是中文的逗号。
如果想把这4个密码提取出来，可以构造以下两个正则表达式：

密码是：(.)，
密码是：(.? )，
配合Python的findall方法，得到结果如图3-6图所示。

图3-6 使用“.＊”和“.＊? ”返回的结果
使用“(.)”得到的是只有一个元素的列表，里面是一个很长的字符串。
使用第2个正则表达式“(.? )”，得到的结果是包含4个元素的列表，每个元素直接对应原来文本中的每个密码。
举一个例子，10个人肩并肩并排站着，使用“(.)”取到了第1个人左手到第10个人右手之间的所有东西，而使用“(.? )”取到的是“每个人”的左手和右手之间的东西。
一句话总结如下。
①“.”：贪婪模式，获取最长的满足条件的字符串。
②“.? ”：非贪婪模式，获取最短的能满足条件的字符串。
3.1.3 正则表达式提取技巧
1．不需要compile
网上很多人的文章中，正则表达式使用re.compile()这个方法，导致代码变成下面这样：

import re
example_text = ’我是kingname, 我的微博账号是：kingname, 密码是：12345678, QQ账号是：99999, 密
码是：890abcd, 银行卡账号是：000001, 密码是：654321, Github账号是：99999@qq.com, 密码
是：7777love8888, 请记住他们。'
new_pattern=re.compile(’账号是：(.? ), 密码是：(.*? ), ', re.S)
user_pass = re.findall(new_pattern, example_text)
print(user_pass)

V3-8 正则表达式提取技巧
这种写法虽然结果正确，但纯粹是画蛇添足，是对Python的正则表达式模块没有理解透彻的体现，是从其他啰嗦的编程语言中带来的坏习惯。如果阅读Python的正则表达式模块的源代码，就可以看出re.compile()是完全没有必要的。
对比re.compile()和re.findall()在源代码中的写法，如图3-7所示的两个方框。

EasyLake

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【Python爬虫】Python爬虫开发：从入门到实战(谢乾坤)[1-3]

第2章 Python 基础2.3 Python的数据结构和控制结构元组和列表的区别：列表生成以后还可以往里面继续添加数据，也可以从里面删除数据；但是元组一旦生成就不能修改。如果它里面只有整数、浮点数、字符串、另一个元组，就既不能添加数据，也不能删除数据，还不能修改里面数据的值。但是如果元组里面包含了一个列表，那么这个元组里面的列表依旧可以变化。切片操作格式为：变量名[开始位置下标：结束位置下标：步长]切片的结果包括“开始位置下标”所对应的元素，但是不包括“结束位置下标”所对应的元素。.
复制链接

扫一扫