【爬虫学习】BeautifulSoup 学习心得

最新推荐文章于 2023-08-10 09:41:11 发布

jzz3933

最新推荐文章于 2023-08-10 09:41:11 发布

阅读量1.1k

点赞数

文章标签：爬虫 BeautifulSoup

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jzz3933/article/details/78344561

版权

最近在根据教程学习网络爬虫，如何从真实网页中获得信息，虽然之前也写过一些爬虫，但是始终没有经过科班培训，这次算是正式学习吧，同时记录一些心得体会

上图是一个简单的网页解析代码，同时可以作为学习beautifulsoup库的样本

soup.select方法：

1、使用的是CSS selector路径，不是xpath路径（可用于Scrapy）

2、例如titles中，如果想要依靠标签中有某个属性来实现筛选，则在CSS selector中修改为标签[属性]，例如：a[target="_blank"]

同样，对于imgs中，使用宽度=160这个属性，进行图片的筛选

3、在cates（类别信息）中，一个标题下有多个类别，则可以通过选择父节点（p13n_reasoning_v2）标签(位置信息)来获得所有信息

4、在复杂网页中，往往CCS Selector路径很长，其实并不必要，只要能找到唯一的标签来定位该元素即可，例如<a class = "time"> 这时搜索.time如果唯一，则可以使用soup.selcet('a.time')来获得内容

如果审查内容为< id = "content">后边有<span class = 'price'> 且搜索唯一，则可是用soup.select('#content span.price')

也就是说 # 代表 id . 代表 class

5、学到一种字典解析方式，后边加上一个if判断句

6、除了利用soup.select方法外，还可以利用soup.title.text方法，如果浏览网页的标题在浏览器的标签页上的话，这是最简单的实现方法

soup.find_all方法

图2 41行中，span为标签，c_25d是class，这样找到所有的这种样式的内容

soup解析内容时候

1、常用的是get_text()方法

2、获得连接信息，则利用get方法，参数为具体链接的标签，例如img.get('src')

3、对于多个信息，利用stripper_strings方法来得到

小技巧

1、学会好的展示方法，将数据整理为一个字典，利用zip函数

2、在爬取连续多个页面的网页时，可以“列表解析式”构造网址

例如：url = ['www.****{}.com'.format(str(i)) for i in range(1,100,3)]

3、使用headers={'User-Agent':' '

'Cookie':' '}来模拟人类登陆

4、为了反爬虫，可以爬取手机（移动端）页面

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
【爬虫学习】BeautifulSoup 学习心得

最近在根据教程学习网络爬虫，如何从真实网页中获得信息，虽然之前也写过一些爬虫，但是始终没有经过科班培训，这次算是正式学习吧，同时记录一些心得体会上图是一个简单的网页解析代码，同时可以作为学习beautifulsoup库的样本soup.select方法：1、使用的是CSS selector路径，不是xpath路径（可用于Scrapy）2、例如titles中，如果想要依靠标签中
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。