忽发奇想,想把某个网站的个人介绍的照片和对应的名字爬下来,想正则式想了很久都没想出来,大神指点用beautifulsoup吧,挣扎了一段时间我觉得在这个问题上放弃正则式。(还是想要想出来)
问题描述
[li]
[a][img src="(url)" border="0"][/a]
[div]
[p][strong](name)[/strong][/p]
[p][/p]
[p][/p]
[/div]
[/li]
每个人的个人信息存在list里,首先是图片,其次是个人简介,一看特别简单,要爬的信息前后都有明显的标记。
src="(.*?) border"
和[strong](.*?)[/strong]
就能提出来了,但问题是我想让同一个人(同一个List)的信息存在一起,这样取姓名就很方便。
然鹅,我想来想去……想不出来,只能或出来,这并不是我想要的结果。
beautifulsoup
于是转战bs4,首先是安装有点小问题,直接pip install下不下来,只能去官网下安装包,放到python27/Scripts
里pip安装。
又然鹅,报错。
'module' object has no attribute '_base'
1.治标不治本的方法,复制C:\Python27\Lib\