简单爬虫学习【思维篇：壹】

最新推荐文章于 2022-09-14 21:59:29 发布

ZEN1001

最新推荐文章于 2022-09-14 21:59:29 发布

阅读量143

点赞数

分类专栏： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Ai_YOU127/article/details/83188133

版权

python 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

在开始写爬虫前，对行为与方法进行整理，有流程和目的的框架，以一个实际案例作例：

目的：爬取某网站下100页中，各个标题下的详细页面中的详情内容。代码的结构可能是这样的：
for 网站的100页：
for 各个标题：
详情内容：
流程：可以自顶而下，也可以由下到上

1、找到某网站的跟路径；

Xpath

1、Xpath使用；（xml和html都支持）比正则表达式强大而简单；
2、多线程爬取；
lxml就是xpath的库名称。
导入方式：from lxml import etree
使用方式：
1、selector = etree.HTML（网页代码）
2、selector.xpath（”这里是路径，举例如下“）
//：表示定位到根节点
/：下一级
/：文本
@：属性开头，相当于字典的键
举例：selector.xpath（"//ul[2][@id =“name1”]/li[3]/text()"）
理解为：在根路径下，找到第二个ul中id为name1下，找到第三个li中的文本。

以相同字符开头
starts-with（@属性）
标签套标签

线程

from multiprocessing.dummy import
多线程操作下，所取到的数据没有必然顺序，都是在哥哥线程上各自抢负荷。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
简单爬虫学习【思维篇：壹】

在开始写爬虫前，对行为与方法进行整理，有流程和目的的框架，以一个实际案例作例：目的：爬取某网站下100页中，各个标题下的详细页面中的详情内容。代码的结构可能是这样的：for 网站的100页：for 各个标题：详情内容：流程：可以自顶而下，也可以由下到上1、找到某网站的跟路径...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。