1.认识网页的构成
html==结构;css== 样式;JavaScript==功能;
<div></div>是网页中的区域;
<p></p>是内容;
<li></li>是列表;
<img></img>是图片;
<h1></h1>是不同字号的标题;
<a href="">是网页中的链接
header+content+footer;
==================================================================================================
2.解析网页中的元素
第一步:使用BeautifulSoup解析网页
Soup = BeautifulSoup(html,'lxml')
库有5种:‘html.parser’,‘lxml HTML’,‘lxml XML’,‘html5lib’,‘lxml’;
描述方式2种:“CSS Selector:”,"XPath:"
第二步:描述要爬取的东西在哪