爬虫爬取樱花动漫上的一些信息

用python爬取樱花动漫的图片等信息用于做毕业设计的数据

学习视频:

04图片下载.mp4哔哩哔哩_bilibili

代码

import requests
from lxml import etree
​
# 判断单个字符是否是中文
def is_chinese(char):
    if '\u4e00' <= char <= '\u9fff':
        return True
    else:
        return False
​
​
domain = "https://www.iyhdmw.com"
url = "https://www.iyhdmw.com/"
resp = requests.get(url)
# print(resp.text)
et = etree.HTML(resp.text)
# 图片主键
id = 1703792039038+1 
​
result = et.xpath("//div[@class='area']/div/div/ul/li/a/@href") #得到我所需要的每个动漫的详情页的地址
print(result)
for item in result: 
    url = domain + item  # 便利每个动漫详情页
    # print(url)
    resp = requests.get(url)
    et = etree.HTML(resp.text) # 拿到页面的源代码
​
    result = "insert into remendongman values (\'"+ str(id) +"\',\'2021-01-05 11:42:41\',\'"+et.xpath("//head/meta[@name='keywords']/@content")[0]+"\',\'分类1\',"
    id = id + 1
    result += "\'"
    
    # 拼接动漫标签,可能有多个,同理拼接其他信息直接构成sql语句
    for j in et.xpath("//div[@class='sinfo']/span/a/@href"):
        if is_chinese(j[-2]):
            result += j[-2:]+" "
    result += "\',\'"
    tupian =  "https:"+ et.xpath("//div[@class='area']/div[@class='fire l']/div/img/@src")[0]
    result += tupian + "\'"
    result += ",\'\',\'\',\'2023-12-27\',\'"
    result += et.xpath("//head/meta[@name='description']/@content")[0]
    result += "\'"
    result += ",\'0\',\'0\',\'2023-12-28 17:59:21\',\'0\');"
    print(result)
​
​
​
# https://fc.sinaimg.cn/large/008vY4jCgy1hfmbfazy5hj305i07njro.jpg
# https://www.iyhdmw.com/fc.sinaimg.cn/large/008vY4jCgy1hfmbfazy5hj305i07njro.jpg
如果您下载了本程序,但是该程序存在问题无法运行,那么您可以选择退款或者寻求我们的帮助(如果找我们帮助的话,是需要追加额外费用的)。另外,您不会使用资源的话(这种情况不支持退款),也可以找我们帮助(需要追加额外费用) 爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对获取的HTML进行解析,提取有用的信息。常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。 遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施,如验证码、IP封锁等。爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问网站的服务器负责。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值