xpath是基于路径来寻找相关的内容,区别于re,有时候re爬网页内容的时候会出现爬了多余的信息,造成信息整理的时候由于长度问题(当然这是可以进行内容检查的)进行规律的整理
- 参考Xpath用法
- 相关视频有一个关于Xpath
- 看视频以后自己结合内容写的代码如下:
这里写代码
from multiprocessing.dummy import Pool as ThreadPool
from lxml import etree
import functools
import requests
urls=[]
page='http://tieba.baidu.com/p/3668570906?see_lz=1&pn='
url1='http://tieba.baidu.com/p/3668570906?pn=1'