【爬虫学习】BeautifulSoup 学习心得

最近在根据教程学习网络爬虫,如何从真实网页中获得信息,虽然之前也写过一些爬虫,但是始终没有经过科班培训,这次算是正式学习吧,同时记录一些心得体会


上图是一个简单的网页解析代码,同时可以作为学习beautifulsoup库的样本


soup.select方法:

1、使用的是CSS selector路径,不是xpath路径(可用于Scrapy)

2、例如titles中,如果想要依靠标签中有某个属性来实现筛选,则在CSS selector中修改为   标签[属性],例如:a[target="_blank"]

     同样,对于imgs中,使用宽度=160这个属性,进行图片的筛选

3、在cates(类别信息)中,一个标题下有多个类别,则可以通过选择父节点(p13n_reasoning_v2)标签(位置信息)来获得所有信息

4、在复杂网页中,往往CCS Selector路径很长,其实并不必要,只要能找到唯一的标签来定位该元素即可,例如<a class = "time"> 这时搜索.time如果唯一,则可以使用soup.selcet('a.time')来获得内容

     如果审查内容为<  id = "content">后边有<span class = 'price'>  且搜索唯一,则可是用soup.select('#content span.price')

也就是说  #  代表  id     .   代表 class

5、学到一种字典解析方式,后边加上一个if判断句

6、除了利用soup.select方法外,还可以利用soup.title.text方法,如果浏览网页的标题在浏览器的标签页上的话,这是最简单的实现方法


soup.find_all方法

图2  41行中,span为标签,c_25d是class,这样找到所有的这种样式的内容

soup解析内容时候

1、常用的是get_text()方法

2、获得连接信息,则利用get方法,参数为具体链接的标签,例如img.get('src')

3、对于多个信息,利用stripper_strings方法来得到



小技巧

1、学会好的展示方法,将数据整理为一个字典,利用zip函数

2、在爬取连续多个页面的网页时,可以“列表解析式”构造网址

例如:url = ['www.****{}.com'.format(str(i)) for i in range(1,100,3)]

3、使用headers={'User-Agent':' '

'Cookie':' '}来模拟人类登陆

4、为了反爬虫,可以爬取手机(移动端)页面

展开阅读全文

没有更多推荐了,返回首页