Requests+BeautifulSoup+python Basic WebScraping

标题

引入头文件

import requests
from bs4 import BeautifulSoup

c保存requests.get得到的网站的html代码;

r=requests.get("http://www.pyclass.com/example.html",headers={"User-agent":'Mozilla/5.0(X11;Ubuntu;Linux x86_64;rv:61.0)Gecko/20100101 Firefox/61.0'})  #get
c=r.content

soup将c中代码转为html格式;

soup = BeautifulSoup(c,"html.parser")   
#变为HTML代码

soup中存放html代码,soup.find_all()得到每个标签;
all为存放所有div标签+cities类的列表;

all=soup.find_all("div",{"class":"cities"})   #找到所有div  类名为cities

找到all中所有div标签的h2标签;

all[0].find_all("h2")#无需加入map    #要用tag才行,不能对list操作
all[0].find_all("h2")[0].text    #text可去掉头尾

遍历all,得到所有h2或p(paragraph);

for item in all:
    print(item.find_all("p")[0].text)     #p的得到paragraph
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值