在python中利用for循环将网页文本内容全部打印出来

1.首先我们要在python中打开终端安装pandas(pandas是一个强大的分析结构化数据的工具集;它的使用基础是Numpy(提供高性能的矩阵运算);用于数据挖掘和数据分析,同时也提供数据清洗功能。),如图所示:

不知道安没有安装的同学可以在终端使用pip list进行查询,如图所示:

2.在lxml(lxml是XML和HTML的解析器,其主要功能是解析和提取XML和HTML中的数据)中使用etree(通过 requests.get 方法获得 html 源代码后,可以通过 etree 进行解析,进而从源代码中提取关键信息

3.发送请求,利用for循环来设置数据量,通过URL地址获取HTML源代码,随后利用xpath一层一层进入并进行相应的信息抽取。

4.通过for循环和xpath定位爬取网页各种信息,然后排列数据方便之后的存储。

其中为大家找到了不容易理解的两点补充注意:

(1)xpath定位表达式

(2)Python爬虫——xpath().[0]的用法

无[0],无循环——打印出列表

有[0],无循环———返回列表中第一个元素

有.extract()或者.extract()[0],无循环——均报错

有[1],无循环——分别返回列表中的第二个元素

有[0],有循环——打印出每次循环的结果

5.常见错误

Python语言是一款对缩进非常敏感的语言,给很多初学者带来了困惑,即便是很有经验的Python程序员,也可能陷入陷阱当中。最常见的情况是tab和空格的混用会导致错误,或者缩进不对,而这是用肉眼无法分别的。

在编译时会出现这样的错IndentationError:expected an indented block说明此处需要缩进,你只要在出现错误的那一行,按空格或Tab(但不能混用)键缩进就行。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值