小白练习-使用BeautifulSoup库简单的爬虫练习

from bs4 import BeautifulSoup
import requests
url = 'http://www.tripadvisor.cn/Attractions-g60763-Activities-New_York_City_New_York.html#ATTRACTION_SORT_WRAPPER'
we_data=requests.get(url)# 用requests.get方法获得网页,并把它存储
soup =BeautifulSoup(we_data.text ,'lxml') #用BeautifulSoup 解析网页,用.text方法使得网页可读
titles =soup.select('div.detail ')# 爬取一类元素,(看其标签中共有属性)
imgs=soup.select('img[width="160"]')# 爬取想要图片的链接
cates =soup.select('div.p13n_reasoning_v2')#爬取分类标签,一定在对应的父标签就停下,eg:<div class="p13n_reasoning_v2">
for title,img,cate in zip(titles,imgs,cates):
    data ={
        'title':title.get_text(),
        'img':img.get('src'),
        'cate':list(cate.stripped_strings),
    }
    print(data)
使用的是Python3.4,菜鸟练习。
结果:
{'img': 'http://cc.ddcdn.com/img2/x.gif', 'cate': ['公园', '景观步行区', '景点与地标'], 'title': '中央公园 93,099 条点评 公园, 景观步行区, 景点与地标'}
{'img': 'http://cc.ddcdn.com/img2/x.gif', 'cate': ['历史景点', '纪念碑与雕像', '专业博物馆', '景点与地标'], 'title': '9/11纪念馆 62,358 条点评 历史景点, 纪念碑与雕像, 专业博物馆, 景点与地标'}
{'img': 'http://cc.ddcdn.com/img2/x.gif', 'cate': ['艺术博物馆', '景点与地标'], 'title': '大都会艺术博物馆 40,694 条点评 艺术博物馆, 景点与地标'}
{'img': 'http://cc.ddcdn.com/img2/x.gif', 'cate': ['观察台与观景塔', '瞭望台'], 'title': '峭石之巅观景台 57,680 条点评 观察台与观景塔, 瞭望台'}
{'img': 'http://cc.ddcdn.com/img2/x.gif', 'cate': ['景点与地标'], 'title': '9/11纪念馆 62,358 条点评 历史景点, 纪念碑与雕像, 专业博物馆, 景点与地标'}
{'img': 'http://cc.ddcdn.com/img2/x.gif', 'cate': ['建筑物', '景点与地标'], 'title': '埃利斯岛 4,744 条点评 历史景点, 历史博物馆, 景点与地标'}
{'img': 'http://cc.ddcdn.com/img2/x.gif', 'cate': ['景点与地标'], 'title': '总督岛 571 条点评 历史景点, 景点与地标'}
{'img': 'http://cc.ddcdn.com/img2/x.gif', 'cate': ['公园', '景观步行区'], 'title': '古柏惠特博物馆 352 条点评 历史景点, 艺术博物馆'}
{'img': 'http://cc.ddcdn.com/img2/x.gif', 'cate': ['艺术博物馆'], 'title': '温室花园 258 条点评 花园'}
{'img': 'http://cc.ddcdn.com/img2/x.gif', 'cate': ['建筑物', '观察台与观景塔', '景点与地标'], 'title': '莎士比亚公园 70 条点评 花园'}
{'img': 'http://cc.ddcdn.com/img2/x.gif', 'cate': ['公园'], 'title': '玻璃花房 36 条点评 花园'}
{'img': 'http://cc.ddcdn.com/img2/x.gif', 'cate': ['建筑物', '观察台与观景塔'], 'title': 'The Jefferson Market Garden 18 条点评 花园'}
{'img': 'http://cc.ddcdn.com/img2/x.gif', 'cate': ['纪念碑与雕像', '景点与地标'], 'title': '9/11纪念馆 62,358 条点评 历史景点, 纪念碑与雕像, 专业博物馆, 景点与地标'}
{'img': 'http://cc.ddcdn.com/img2/x.gif', 'cate': ['教堂与大教堂'], 'title': '大都会艺术博物馆 40,694 条点评 艺术博物馆, 景点与地标'}
{'img': 'http://cc.ddcdn.com/img2/x.gif', 'cate': ['专业博物馆'], 'title': '弗里克美术收藏馆 7,172 条点评 艺术博物馆'}
{'img': 'http://cc.ddcdn.com/img2/x.gif', 'cate': ['轮渡'], 'title': '世贸大厦遗址博物馆工作室 3,180 条点评 专业博物馆'}
{'img': 'http://cc.ddcdn.com/img2/x.gif', 'cate': ['剧院', '景点与地标'], 'title': '峭石之巅观景台 57,680 条点评 观察台与观景塔, 瞭望台'}
{'img': 'http://cc.ddcdn.com/img2/x.gif', 'cate': ['建筑物', '景点与地标'], 'title': '斯塔滕岛渡轮 14,547 条点评 轮渡'}
{'img': 'http://cc.ddcdn.com/img2/x.gif', 'cate': ['专业博物馆'], 'title': '罗斯福岛棕榈泉 2,556 条点评 有轨电车'}
{'img': 'http://cc.ddcdn.com/img2/x.gif', 'cate': ['竞技场与体育馆'], 'title': '世贸一号观景台 14,346 条点评 建筑物, 观察台与观景塔'}
{'img': 'http://cc.ddcdn.com/img2/x.gif', 'cate': ['圣地与宗教景点', '艺术博物馆'], 'title': '9/11纪念馆 62,358 条点评 历史景点, 纪念碑与雕像, 专业博物馆, 景点与地标'}
{'img': 'http://cc.ddcdn.com/img2/x.gif', 'cate': ['专业博物馆'], 'title': '自由女神像 27,389 条点评 纪念碑与雕像, 景点与地标'}
{'img': 'http://cc.ddcdn.com/img2/x.gif', 'cate': ['区域', '景点与地标'], 'title': 'The Oculus 454 条点评 纪念碑与雕像'}
{'img': 'http://cc.ddcdn.com/img2/x.gif', 'cate': ['艺术博物馆'], 'title': '爱丽丝梦游仙境雕塑 398 条点评 纪念碑与雕像'}


Process finished with exit code 0

                
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值