![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
lxml
笑笑布丁
个人博客:https://madpudding.github.io/
展开
-
python requests爬虫使用lxml解析HTML获取信息不对等的问题
python requests爬虫使用lxml解析HTML获取信息不对等的问题 我们在用lxml解析HTML文本时,有时会碰到标签有换行的情况,如果我们用获取xpath的方法,循环获得该元素下的所有text()文本,同一个标签会出现两段内容,解决办法是替换掉网页文本内容: url = 'http://******' data = requests.get(url) r = dat...原创 2018-10-17 10:03:07 · 1392 阅读 · 3 评论 -
python爬虫之 BeautifulSoup修复残损的html文本
原因 众所周知,当你使用lxml解析html文本时,它是不能解析残损的html文本的,所以一旦你下载的是残损的文本,它也要么解析不出来,要么parse出错,那怎么解决呢? Beautifulsoup 首先 pip install beautifulsoup4, pip install htmllib5 data = requests.get(url=get_url, headers=hea...原创 2019-04-30 15:53:51 · 678 阅读 · 0 评论