python爬虫系列一

最新推荐文章于 2020-12-03 20:17:27 发布

m0_37204377

最新推荐文章于 2020-12-03 20:17:27 发布

阅读量292

点赞数

分类专栏： python爬虫

本文链接：https://blog.csdn.net/m0_37204377/article/details/76695911

版权

3 篇文章 0 订阅

订阅专栏

不多说直接放代码

# encoding: utf-8
#加载bs4的包里面的beatifusoup类
from bs4 import BeautifulSoup

#加载urllib，爬虫必备
import urllib
#声明一个变量，传入url给url的变量
url = 'https://www.douban.com/tag/小说/?focus=book'

#调用urllib类里面的urlopen函数，进行获取到url的html代码
htmurl = urllib.urlopen(url,'html.parser')

#创建一个beautifulsoup的对象soup
soup = BeautifulSoup(htmurl)

#首先获取div标签里面的所有内容
book_div = soup.find(attrs={'id':'book'})

#然后获取div标签里面的a标签内容
book_a = soup.find_all(attrs={'class':'title'})

#循环a标签，然后把a标签里面的string打印出来
for book in book_a:
    print book.string

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注