1.首先我们要在python中打开终端安装pandas(pandas是一个强大的分析结构化数据的工具集;它的使用基础是Numpy(提供高性能的矩阵运算);用于数据挖掘和数据分析,同时也提供数据清洗功能。),如图所示:
不知道安没有安装的同学可以在终端使用pip list进行查询,如图所示:
2.在lxml(lxml是XML和HTML的解析器,其主要功能是解析和提取XML和HTML中的数据)中使用etree(通过 requests.get 方法获得 html 源代码后,可以通过 etree 进行解析,进而从源代码中提取关键信息)
3.发送请求,利用for循环来设置数据量,通过URL地址获取HTML源代码,随后利用xpath一层一层进入并进行相应的信息抽取。
4.通过for循环和xpath定位爬取网页各种信息,然后排列数据方便之后的存储。
其中为大家找到了不容易理解的两点补充注意:
(1)xpath定位表达式
(2)Python爬虫——xpath().[0]的用法
无[0],无循环——打印出列表
有[0],无循环———返回列表中第一个元素
有.extract()或者.extract()[0],无循环——均报错
有[1],无循环——分别返回列表中的第二个元素
有[0],有循环——打印出每次循环的结果
5.常见错误
Python语言是一款对缩进非常敏感的语言,给很多初学者带来了困惑,即便是很有经验的Python程序员,也可能陷入陷阱当中。最常见的情况是tab和空格的混用会导致错误,或者缩进不对,而这是用肉眼无法分别的。
在编译时会出现这样的错IndentationError:expected an indented block说明此处需要缩进,你只要在出现错误的那一行,按空格或Tab(但不能混用)键缩进就行。