Python简单爬虫2

爬取豆瓣用户读过的书,根据网页url的变化自动翻页,不过好像被封IP了

​
import urllib.request
import http.cookiejar
import requests
from bs4 import BeautifulSoup
import re

#保存文件位置
#filename = 'cookies.txt'
#创建一个实例对象保存cookies
#cookie = http.cookiejar.MozillaCookieJar(filename)
#创建一个存放cookies的容器
#handler = urllib.request.HTTPCookieProcessor(cookie)
#新建一个支持cookie的opener
#opener = urllib.request.build_opener(handler)
#打开网站
#response = opener.open("https://www.douban.com/")
#存储cookies
#cookie.save(ignore_discard=True, ignore_expires=True)
#https://book.douban.com/people/3551583/collect

cookies = http.cookiejar.MozillaCookieJar()

cookies.load('cookies.txt', ignore_discard=True, ignore_expires=True)

cnt = 0
while cnt <= 345:
    urls = 'https://book.douban.com/people/162338500/collect?start&sort=time&rating=all&filter=all&mode=grid'

    url = urls.replace("start=","start="+str(cnt))

    cnt = cnt + 15

    r = requests.get(urls, cookies=cookies).text
    p1 = '(?<=title=").+?(?=" )'

    pattern = re.compile(p1)

    items = pattern.findall(r)

    for item in items:
       print (item)


#soup = BeautifulSoup(r, 'html5lib')

#items = soup.find_all(text='title')

#print (items)

​

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值