代码》》
import requests
from bs4 import BeautifulSoup
headers={
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.12Safari/537.36'}
res =requests.get("http://bj.xiaozhu.com/",headers=headers)
soup=BeautifulSoup(res.text,'html.parser')
prices=soup.select("#page_list > ul > li > div.result_btm_con.lodgeunitname > div.result_intro > a > span")
for price in prices:
print(price.get_text())
**
运行结果》》
心得体会》》
-
安装第三方库的BeautifulSoup时没有办法安装,总是失败,感觉应该是库版本太老的原因(我的pycharm是2020.1.1版的)但是有个beautifulsoup4的库,我想这应该是最新的,然后这个是可以下载的,然后在我导入的的时候原本应该是
from bs4 import BeautifulSoup
但是我写的是
from bs4 impot beautifulsoup4
然后就一直提示没有办法导入,我一直认为我的包路径下载错了,但最后试了试可能这个包名字还是原来的然后就写成BeautifulSoup才可以运行,也不知道到底是怎么回事,如果有知道的大佬能否指导一下
-
然后html的问题在通过select定位网页中的位置中里面有一段li:nth-of-type(1)
要把这个改成li才可以搜索所有的同类数据,不太清楚这个什么意思。然后查了一些
资料才了解一些
日记》》
**
今天跟着罗攀、蒋仟老师写的《从零开始学习python网络爬虫》学习爬虫,看了P1~P35,上面是今天写的第一个小的爬虫程序,其中碰到了好多问题,主要有第三方库(requests,beautifulsoup4),html等一些问题,这会看的有点饿了哈,想吃东西去了喽