爬取分页的标题

还是跟着极客学院学习爬虫。
今天学习单线程爬虫,老师让爬一个众筹项目网站 https://www.crowdfunder.com。可是由于视频是去年的,视频里老师讲的这个网站的requests method是post,但是今天我查看网站看到的是get(或许我没看对)。
无所谓了,我就看着老师的(反正不是能看懂),自己用最笨的方法搞了个,自动爬取分页码的标题。又由于没有登陆,所以只能爬去部分。所以若是想爬取全部,还要学习如何自动登陆。


# -*- coding: utf-8 -*-
"""
Created on Mon May  9 14:28:45 2016

@author: s
"""

import requests
import re

header = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.94 Safari/537.36'}
url = r'https://www.crowdfunder.com/?page=1'

i = 1

#得到分页网址
def newurls():
    global i, html
    newurl = re.sub('page=(\d+)', 'page='+str(i), url, re.S)    
    if i > 7:
        print('The End')
        return
    print(newurl)
    #未登陆,只能提取部分
    html = requests.get(url, headers=header).text
    #print(html)
    titles()
#对每个分页进行标题提取
def titles():
    global i, html
    title = re.findall('class="card-title"(.*?)</div>', html, re.S)
    print(title)
    i += 1
    newurls()

newurls()    
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
学习 Python 进行漫画爬取是一个有趣的实践项目,Python 提供了强大的网络请求库(如 requests、BeautifulSoup 或者 lxml)以及数据解析能力,这使得处理网页内容变得相对容易。以下是一些步骤来帮助你入门: 1. 安装必要的库: 首先,确保安装了 `requests` 和用来解析 HTML 的库,比如 `beautifulsoup4` 或 `lxml`。你可以使用 pip 进行安装: ``` pip install requests beautifulsoup4 ``` 2. 获取网页源代码: 使用 requests 库发送 GET 请求获取漫画网站的HTML页面内容: ```python import requests url = "https://www.example.com/comic" # 替换为你想爬取的漫画网址 response = requests.get(url) html_content = response.text ``` 3. 解析 HTML: BeautifulSoup 可以帮助我们从 HTML 中提取所需的信息,比如标题、链接等: ```python from bs4 import BeautifulSoup soup = BeautifulSoup(html_content, 'html.parser') comic_links = soup.select('.comic-link') # 根据实际选择器找出漫画链接 ``` 4. 下载或保存图片: 如果漫画是一页一页的图片,可以遍历链接并下载图片到本地目录: ```python import os for link in comic_links: image_url = link['href'] image_name = os.path.basename(image_url) # 图片名通常是 URL 的一部分 response_image = requests.get(image_url) with open(f'image_folder/{image_name}', 'wb') as f: f.write(response_image.content) ``` 5. 处理分页和登录(如果需要): 对于有分页的漫画网站,可能需要递归调用爬虫,处理登录情况则需模拟用户行为。 **相关问题--:** 1. 如何在 Python 中处理动态加载的内容? 2. 如果漫画网站需要登录才能访问,如何利用 Python 实现模拟登录? 3. 在大规模爬取时,如何避免被网站封禁 IP?
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值