python爬取5442网站图片

    python爬取5442网站图片


python3环境下:


#!/usr/bin/python
#encoding: utf-8
"""
本次爬虫使用的是python3的版本,并且本次的目标网站并没有采用js来加载图片,所以没有涉及对js脚本的解析,都是通过来分析html文件通过正则来一步步提取图片网址,然后存起来。
首先这个网站有很多分类,到美女图这个子网页,可以发现有很多页,同时每页有多个相册,每个相册点进去就会有多个页,每页有多张照片
流程大概是这样
找到所有页数
----遍历所有的页数
----遍历当前页的所有相册(给每个相册建立一个目录)
----遍历当前相册的所有图片(遍历此相册的所有页(遍历当前页的所有照片并找到图片的url))
----获得图片url就存起来
"""
import urllib.request
import re
import os
import time
import socket
from hashlib import md5
#001获得整个页面
def get_html(url):
    socket.setdefaulttimeout(10)
    papg = urllib.request.urlopen(url)
    html = papg.read()
    html = html.decode("gbk")
    #html = unicode(html, "gbk").encode("utf8")
    return html

def get_img(html):
    imgre = re.compile(r'&
哇塞电影网址大全,吸取了以往各种导航网址程序的优点,最大程度的完善优化了各项功能和指标,采用谁对我站贡献大,我站也给予他宣传和展示的机会就越多的流量交换模式,只要您在本系统注册登记您的网址,然后在你网站做好我站连接或是挂上流量互换代码,每次您网站有用户访问到放置我站流量互换代码的站,那么你的网站将在最近入站以及你网站所在分类的第一位置!连接双方公正平等。系统前台简介:1.采用ASP+ACCESS架构,安全稳定,防注入功能;2.新闻文章发布功能支持无限级分类,方便自由;3.数据库经过防下载等安全处理,后台可超强命名,随意改动;4.每来访一个IP,来访网站就会自动排到第一,当天来路不同,显示颜色也不同,鼓励点入;5.前台统计数据调用,最新点入网站调用,未审核网站调用等;6.申请加入电影网址大全的网站按最后点进的时间排序首页和分类显示链接;7.分类以昨日点入时间为准,每晚十二点后生成静态;8.每来访一个IP,就会自动排到第一,当天来路次数不同,显示颜色也不同:有1次即显示,10次即套蓝色,30次即套红色加粗;9.首页白天3分钟,晚上5分钟自动更新一次,全站24小时手动更新一次;10.站内搜索功能,方便用户找到自己想要的网址;11.程序全面优化和升级,增强对搜索引擎的收录功能;12.流量互换功能,最大程度互换流量。系统后台功能详细说明:管理目录:admin,管理员用户名:n3n5,密码:n3n5com网站管理系统:1.网站基本信息,说明:里面设置,网站标题,LOGO,关键词,统计代码,版权信息!2.图片广告管理,说明:网站所有图片广告修改的地方,在首页可以看到所有图片广告,其中ads09是在网址内页显示!其它的都在首页和分类页有位置显示!3.顶部文字广告管理,说明:这里的文字,首页,特别推荐里面显,分类首页和分类页,记得,改后要在生成html管理里,生成一下首页!4.添加商家文字广告,说明:这里的文字,首页,中间部分,广告,那里的文字,在图片广告下面,一行七个!5.管理商家文字广告,说明:修改删除商家文字广告!6.管理帐号设置,说明:管理员用户名,密码的修改!9.客户留言管理,说明:留言本的回复,修改和删除!网站分类管理:1.类别添加管理,说明:分类添加删除管理,这里说明一下添加时有首页显示,导航就显示在首页上面,添加时选酷站显示,就在首页下面酷站里调用!2.类别删除管理,说明:删除不想要的分类!3.类别修改管理,说明:分类修改里,有显示,[首][酷]就是上面说明的首页显示,和酷站显示!网址管理系统:1.添加网址链接,说明:用于后台管理员手工添加网址2.添加实用查询|管理实用查询,说明:添加后在首页实用工具里显示!3.添加名站导航|管理名站导航,说明:添加后在首页名站导航里显示!4.添加友情链接|管理友情链接,说明:添加后在首页下部友情链接里显示!5.查看所有的网址,说明:包含站长加的和用户自己加的!6.站长加入的网址,说明:站长加入的网址!7.用户加入已审核,说明:用户提交的网址,并通过审核的,说明一下,本站有自动审核功能,开启关闭,在 网站管理系统-网站基本信息里设置!8.用户加入未审核,说明:用户提交的网址没审的,也就是没有作上本站链接的,或是作上链接没有点击到本站的!9.有来路入未审核,说明:一般用户认为,有来路就应当审核了,这个功能,是为了关闭自动审核而设计的,手工审核的不管有没有来路,都要站长审核的!10.加入黑名单网站,说明:加入黑名单的网址,点击这个导航,进入后,可以删除,和取消黑名单!11.总来路小于五次,说明:本设计用于客户作上本站链接,点入量过小,没有贡献的站,可以多选删除!12.常用维护共三项,说明:(1)开通所有未审的,一般不用这个,如果想要提交的站就收录,可以点击这个功能!(2)删除重复的网站,有一些站长提交过了,又提交了多次或是用二级域名提交,这样可以删除重复的网站!(3)删除所有未审核的站点,(4)清空所有网址,这个点时要注意,点击了,所有网址就都没有了!13.站内报错,说明:用户在网址详提交网址打不开的情况页点击的!14.站内网站搜索,说明:可以按名称,按网址,按分类,按ID号进行搜索! 模版修改管理:首 页 模版修改 分类页模版修改 关于本站页模板 (这里建议会一些HTML知识的站长修改,如果不会不建议修改以免出错,修改时一定要备份)生成html管理:生成分类页面 生成生成主页及其他页 重置统计数据 清除昨天点入数据 清除总点入数据 清除总点出数据 (常用到上面两个,生成分类页和生成主页,也主是首页!每当后台修改了内容时,要马上显示出来就要手动生成,因为前台自动生成要3分钟!)数据库管理:备份数据库 恢复数据库 压缩数据库 (常用到备份数据库,定期备份一下,免费数据库出错找不回来数据!)哇塞电影网址
哇塞电影网址大全 v20190303 更新日志 1.删除无效网址,更换主站地址。 2.优化搜索页面安全设置。 3.整合优化页面设置。 哇塞电影网址大全简介 哇塞电影网址大全,吸取了以往各种导航网址程序的优点,最大程度的完善优化了各项功能和指标,采用谁对我站贡献大,我站也给予他宣传和展示的机会就越多的流量交换模式,只要您在本系统注册登记您的网址,然后在你网站做好我站连接或是挂上流量互换代码,每次您网站有用户访问到放置我站流量互换代码的站,那么你的网站将在最近入站以及你网站所在分类的第一位置!连接双方公正平等。 哇塞电影网址大全系统前台简介: 1.采用ASP ACCESS架构,安全稳定,防注入功能; 2.新闻文章发布功能支持无限级分类,方便自由; 3.数据库经过防下载等安全处理,后台可超强命名,随意改动; 4.每来访一个IP,来访网站就会自动排到第一,当天来路不同,显示颜色也不同,鼓励点入; 5.前台统计数据调用,最新点入网站调用,未审核网站调用等; 6.申请加入电影网址大全的网站按最后点进的时间排序首页和分类显示链接; 7.分类以昨日点入时间为准,每晚十二点后生成静态; 8.每来访一个IP,就会自动排到第一,当天来路次数不同,显示颜色也不同:有1次即显示,10次即套蓝色,30次即套红色加粗; 9.首页白天3分钟,晚上5分钟自动更新一次,全站24小时手动更新一次; 10.站内搜索功能,方便用户找到自己想要的网址; 11.程序全面优化和升级,增强对搜索引擎的收录功能; 12.流量互换功能,最大程度互换流量。 哇塞电影网址大全系统后台功能详细说明: 网站管理系统: 1.网站基本信息,说明:里面设置,网站标题,LOGO,关键词,统计代码,版权信息! 2.图片广告管理,说明:网站所有图片广告修改的地方,在首页可以看到所有图片广告,其中ads09是在网址内页显示!其它的都在首页和分类页有位置显示! 3.顶部文字广告管理,说明:这里的文字,首页,特别推荐里面显,分类首页和分类页,记得,改后要在生成html管理里,生成一下首页! 4.添加商家文字广告,说明:这里的文字,首页,中间部分,广告,那里的文字,在图片广告下面,一行七个! 5.管理商家文字广告,说明:修改删除商家文字广告! 6.管理帐号设置,说明:管理员用户名,密码的修改! 9.客户留言管理,说明:留言本的回复,修改和删除! 哇塞电影网址大全系统网站分类管理: 1.类别添加管理,说明:分类添加删除管理,这里说明一下添加时有首页显示,导航就显示在首页上面,添加时选酷站显示,就在首页下面酷站里调用! 2.类别删除管理,说明:删除不想要的分类! 3.类别修改管理,说明:分类修改里,有显示,[首][酷]就是上面说明的首页显示,和酷站显示! 哇塞电影网址大全系统网址管理系统: 1.添加网址链接,说明:用于后台管理员手工添加网址 2.添加实用查询|管理实用查询,说明:添加后在首页实用工具里显示! 3.添加名站导航|管理名站导航,说明:添加后在首页名站导航里显示! 4.添加友情链接|管理友情链接,说明:添加后在首页下部友情链接里显示! 5.查看所有的网址,说明:包含站长加的和用户自己加的! 6.站长加入的网址,说明:站长加入的网址! 7.用户加入已审核,说明:用户提交的网址,并通过审核的,说明一下,本站有自动审核功能,开启关闭,在 网站管理系统-网站基本信息里设置! 8.用户加入未审核,说明:用户提交的网址没审的,也就是没有作上本站链接的,或是作上链接没有点击到本站的! 9.有来路入未审核,说明:一般用户认为,有来路就应当审核了,这个功能,是为了关闭自动审核而设计的,手工审核的不管有没有来路,都要站长审核的! 10.加入黑名单网站,说明:加入黑名单的网址,点击这个导航,进入后,可以删除,和取消黑名单! 11.总来路小于五次,说明:本设计用于客户作上本站链接,点入量过小,没有贡献的站,可以多选删除! 12.常用维护共三项,说明:(1)开通所有未审的,一般不用这个,如果想要提交的站就收录,可以点击这个功能!(2)删除重复的网站,有一些站长提交过了,又提交了多次或是用二级域名提交,这样可以删除重复的网站!(3)删除所有未审核的站点,(4)清空所有网址,这个点时要注意,点击了,所有网址就都没有了! 13.站内报错,说明:用户在网址详提交网址打不开的情况页点击的! 14.站内网站搜索,说明:可以按名称,按网址,按分类,按ID号进行搜索! 哇塞电影网址大全系统模版修改管理: 首 页 模版修改 分类页模版修改 关于本站页模板 (这里建议会一些HTML知识的站长修改,如果不会不建议修改以免出错,修改时一定要备份) 生成html管理: 生成分类页面 生成生成主页及其他页 重置统计数据 清除昨天点入数据 清除总点入数据 清除总点出数据 (常用到上面两个,生成分类页和生成主页,也主是首页!每当后台修改了内容时,要马上显示出来就要手动生成,因为前台自动生成要3分钟!) 数据库管理: 备份数据库 恢复数据库 压缩数据库 (常用到备份数据库,定期备份一下,免费数据库出错找不回来数据!) 1.管理目录admin,管理员用户名5a3a,密码5a3acom 2.修改数据库名5a3acom.asa修改成自己想要的名即可! 3.后台分类建议自己修改,要不大家的分类都相同影响百度收录。 哇塞电影网址大全系统前台页面  哇塞电影网址大全系统后台管理 管理目录admin,管理员用户名5a3a,密码5a3acom 后台页面: 相关阅读 同类推荐:搜索/网址导航源码
Python 爬虫可以利用诸如 requests 和 BeautifulSoup 或者更现代的库如 Scrapy 来从像 Pixabay 这样的网站抓取图片。以下是简单的步骤: 1. **安装依赖库**: 首先,你需要安装 `requests`、`beautifulsoup4` 和 `lxml`(如果BeautifulSoup使用的是 lxml 解析器): ```bash pip install requests beautifulsoup4 lxml ``` 2. **获取网页源码**: 使用 requests 库发送 GET 请求并获取页面内容: ```python import requests url = "https://pixabay.com/" response = requests.get(url) page_content = response.text ``` 3. **解析HTML**: 使用 BeautifulSoup 解析 HTML,找到包含图片链接的部分: ```python from bs4 import BeautifulSoup soup = BeautifulSoup(page_content, 'lxml') image_tags = soup.find_all('img', src=True) # 查找src属性存在并且非空的img标签 ``` 4. **提取图片URLs**: 从每个 `<img>` 标签中提取实际的图片 URL: ```python image_urls = [img['src'] for img in image_tags] ``` 5. **下载图片**: 可能需要使用第三方库 like `wget` 或 `io` 以及 `os` 来下载图片,注意遵守网站的robots.txt规则和版权政策: ```python import os if not os.path.exists("images"): os.makedirs("images") for url in image_urls: filename = url.split("/")[-1] # 获取文件名 with requests.get(url, stream=True) as img_request: with open(os.path.join("images", filename), "wb") as f: for chunk in img_request.iter_content(chunk_size=1024): f.write(chunk) ``` 6. **处理分页**: 如果 Pixabay 分页,你可能需要遍历所有页面,这通常通过 JavaScript 控制,这时可能需要用到 Selenium 或其他工具。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值