首先要安装两个库(requests、BeautifulSoup)
爬了中国旅游网的某一条消息
import requests
from bs4 import BeautifulSoup
url = "http://www.cntour.cn/"
page=requests.get(url)
soup = BeautifulSoup(page.text,'lxml')
//dom节点位置
data = soup.select('#main>div>div.mtop.firstMod.clearfix>div.centerBox>ul.newsList>li>a')
//转化html为节点内容
for i in data:
result={
'title':i.get_text(),
'link':i.get('href')
}
print (result)
一个非常简单的例子,但是起码能够copy来跑一下,拿点感觉