Python3 爬取豆瓣书籍 Xpath bs4 写入文件

最新推荐文章于 2022-08-30 19:04:06 发布

weixin_34296641

最新推荐文章于 2022-08-30 19:04:06 发布

阅读量98

点赞数

文章标签： python

原文链接：http://blog.51cto.com/9694110/2045073

版权

#coding:utf8
import time
from urllib import request
from bs4 import BeautifulSoup
num = 1#用来计算一共爬取了多少本书
start_time = time.time()#定位一个开始的时间

url = 'https://book.douban.com/series/128?page=1'

html = request.urlopen('https://book.douban.com/series/128?page=1')

bsObj = BeautifulSoup(html,'lxml')

print (bsObj)

f = open('/root/桌面/豆瓣/1.txt','a')
for i in range(1,3):
for e in (100,400,15):
html = request.urlopen('https://book.douban.com/series/%d?page=%d'%(e,i))
bsObj = BeautifulSoup(html,'lxml')
print ("=============" + "第%d页"%i + "==============")
h2_list = bsObj.find_all('h2')

print (h2_list)

    for h2_node in h2_list:
        a_node = h2_node.a
        #print (a_node)
        title = a_node.attrs["title"]
        title = "<<" + title + ">>"
        print ("第%d本书籍"%num,title,file=f)
        num +=1
    time.sleep(2)

end_time = time.time()
duration_time = start_time - end_time
print ('运行时间一共%.2f: '%duration_time+'秒')
print ('共抓到%d本书籍'%num-1)
f.close()

转载于:https://blog.51cto.com/9694110/2045073

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_34296641

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python3 爬取豆瓣书籍 Xpath bs4 写入文件

#coding:utf8import timefrom urllib import requestfrom bs4 import BeautifulSoupnum = 1#用来计算一共爬取了多少本书start_time = time.time()#定位一个开始的时间url = 'https://book.douban.com/series/128?page=1'html = request.u...
复制链接

扫一扫