数据科学工程师面试宝典系列之一----Python爬虫

本文是数据科学工程师面试系列的第一部分,重点介绍了Python爬虫的基础知识。首先,讲解了网页的三大构成元素——HTML、CSS和JavaScript。接着,详细阐述了如何使用BeautifulSoup库解析网页,包括选择不同的解析器和描述方式。然后,说明了如何定位并提取所需信息。最后,通过实例展示了使用Requests和BeautifulSoup组合爬取Tripadvisor网站的过程,涵盖了HTTP协议的基本概念和请求响应机制。
摘要由CSDN通过智能技术生成

1.认识网页的构成

html==结构;css== 样式;JavaScript==功能;

<div></div>是网页中的区域;
<p></p>是内容;
<li></li>是列表;
<img></img>是图片;
<h1></h1>是不同字号的标题;
<a href="">是网页中的链接
header+content+footer;
==================================================================================================

2.解析网页中的元素

第一步:使用BeautifulSoup解析网页

Soup = BeautifulSoup(html,'lxml')

库有5种:‘html.parser’,‘lxml  HTML’,‘lxml  XML’,‘html5lib’,‘lxml’;

描述方式2种:“CSS  Selector:”,"XPath:"

第二步:描述要爬取的东西在哪


                
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值