学习python编写爬虫第一天,学会如何解析本地网页
第1步:使用用Beautiful Soup解析网页
Soup = BeautifulSoup(wb_data,'lxml')
第2步:描述爬取信息的位置
这里使用浏览器开发者工具,选取元素,右键->Copy selector
Copy selector
可得到"body > div.main-content > ul > li > img"
代码如下:
images = Soup.select('body > div.main-content > ul > li > img')
第3步:从标签中获取所需要的信息
from bs4 import BeautifulSoupwith open('/Users/new_index.html','r') as wb_data: Soup = BeautifulSoup(wb_data,'lxml') images = Soup.select('body > div.main-content > ul > li > img') titles = Soup.select('body > div.main-content > ul > li > div.article-info > h3 > a') descs = Soup.select('body > div.main-content > ul > li > div.artic