Xpath爬虫爬去百度贴吧帖子

最新推荐文章于 2024-05-02 10:55:42 发布

acsunqi

最新推荐文章于 2024-05-02 10:55:42 发布

阅读量1.1k

点赞数

分类专栏： python 文章标签：爬虫百度 xpath

本文链接：https://blog.csdn.net/acsunqi/article/details/50755111

版权

xpath是基于路径来寻找相关的内容，区别于re，有时候re爬网页内容的时候会出现爬了多余的信息，造成信息整理的时候由于长度问题（当然这是可以进行内容检查的）进行规律的整理
- 参考Xpath用法
- 相关视频有一个关于Xpath
- 看视频以后自己结合内容写的代码如下：

这里写代码
from multiprocessing.dummy import Pool as ThreadPool
from lxml import etree
import functools
import requests
urls=[]
page='http://tieba.baidu.com/p/3668570906?see_lz=1&pn='
url1='http://tieba.baidu.com/p/3668570906?pn=1'

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

acsunqi

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Xpath爬虫爬去百度贴吧帖子

xpath是基于路径来寻找相关的内容，区别于re，有时候re爬网页内容的时候会出现爬了多余的信息，造成信息整理的时候由于长度问题（当然这是可以进行内容检查的）进行规律的整理 - 参考Xpath用法 - 相关视频有一个关于Xpath - 看视频以后自己结合内容写的代码如下：这里写代码from multiprocessing.dummy import Pool as ThreadPoolfro
复制链接

扫一扫