#bs4解析 #对html的初步理解 标记语言,标签,属性,属性值 #<标签 属性=“属性值”> 被标记内容</标签> #<标签 /> #img src ="xxx.jpg"/> 自带闭合 import requests from bs4 import BeautifulSoup url="http://www.xinfadi.com.cn/priceDetail.html" resp=requests.get(url) #print(resp.text) #用BeautifulSoup处理页面源代码,生成bs对象 page = BeautifulSoup(resp.text,"html.parser")#指定html解析器 #从page中查找数据 #find(标签,属性=值) 只找第一个 #find_all(标签,属性=值) 找全部 table=page.find("table",class_="hq_table") print(table) trs = table.find_all("td")[1:] #做切片 for tr in trs: tds = tr.find_all("td")#拿到行中所有的td name=tds[0].text#.text标识拿到被标签标记的内容
学习爬虫第五天
最新推荐文章于 2024-07-13 10:40:22 发布