2023.12.10 第一次记录
环境配置
pycharm2022.1.3
anaconda3
查看python版本:
import sys
print(sys.version)
运行:
一
1.python网络爬虫实现图片的爬取
# 爬虫--模拟用户在浏览器/某个应用上的操作,把操作的过程、实现自动化的程序
# 输入网址后:(1)域名解析--查找域名对应的IP地址(2)向IP对应的服务器发送请求(3)服务器响应请求,发回网页内容(4)浏览器解析网页内容
# 网络爬虫本质--浏览器http请求
# 浏览器和网络爬虫是两种不同的客户端,都以相同的方式来获取网站
import time
import threading
from threading import Lock
# 爬虫
import requests
import re
# 操作文件
import os
# 使用多线程 爬取 网络图片
class Spider(threading.Thread):
def run(self) -> None:
pass
def download(self,url):
# 发送请求,获取数据
request = requests.get(url,timeout=10) # 单位为毫秒。可能连接会断掉,所以设置timeout,10ms内连接不成功就放弃
# 数据匹配--拿到想要的数据
# 正则表达式--按照某种规则去匹配符合条件的字符串。很复杂,不用记,需要的时候百度
img_urls = re.findall('"objURL":"(.*?)"',request.text)
# 保存图片的路径
img1_urls = './img1'
for img_urls in img_urls:
img_name = str(int(time.time()*100000000))+".jpg" # 多设置点,防止图片名重复
try:
pic = requests.get(img_urls,timeout=10) # 这行代码很容易报错,因为网络很容易断
img_path = os.path.join(img1_urls,img_name) # 保存的路径
f = open(img_path,"wb") # 打开文件,若不存在,则创建并打开
f.write(pic.content) # 写文件
f.close() # 写好后一定记得关掉
print(f"图片保存成功{img_name}")
except: # 出现异常后执行报错提示
print(f"图片保存失败{img_name}")
if __name__ == "__main__":
url = "https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=%E7%93%B6%E7%93%B6&pn=30"
spider = Spider()
spider.download(url)
2.爬取网站:
https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=%E7%93%B6%E7%93%B6&pn=30
二
import time
import threading
from threading import Lock
# 爬虫
import requests
import re
# 操作文件
import os
# 使用多线程 爬取 网络图片
# 创建多线程锁
lock = Lock()
urls = []
class Spider(threading.Thread):
def run(self) -> None:
global urls
while True:
# 获取锁
lock.acquire()
if len(urls) == 0:
lock.release()
return
url = urls[0] # 获取列表中的第一个元素
print("----------------------------------")
# 获取到一个列表后,开启下一个,并删掉上一个
del urls[0]
# 释放锁
lock.release()
# 下载图片
self.download(url)
def download(self,url):
# 发送请求,获取数据
request = requests.get(url,timeout=10) # 单位为毫秒。可能连接会断掉,所以设置timeout,10ms内连接不成功就放弃
# 数据匹配--拿到想要的数据
# 正则表达式--按照某种规则去匹配符合条件的字符串。很复杂,不用记,需要的时候百度
img_urls = re.findall('"objURL":"(.*?)"',request.text)
# 保存图片的路径
img1_urls = './img1'
for img_urls in img_urls:
img_name = str(int(time.time()*100000000))+".jpg" # 多设置点,防止图片名重复
try:
pic = requests.get(img_urls,timeout=10) # 这行代码很容易报错,因为网络很容易断
img_path = os.path.join(img1_urls,img_name) # 保存的路径
f = open(img_path,"wb") # 打开文件,若不存在,则创建并打开
f.write(pic.content) # 写文件
f.close() # 写好后一定记得关掉
print(f"图片保存成功{img_name}")
except: # 出现异常后执行报错提示
print(f"图片保存失败{img_name}")
if __name__ == "__main__":
# url = "https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=%E7%93%B6%E7%93%B6&pn=30"
# spider = Spider()
# spider.download(url)
# 网站如果有分页,那我们的这个程序,是只下载当前页面的
keyword = "灰太狼" # 关键词“灰太狼”
page_num = 3 # 同时下载三个页面
urls = [f'https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word="{keyword}"&pn={30 * index}'for index in range(page_num)]
queue = []
for index in range(3): # 创建三个线程对象
spider = Spider()
spider.start()
queue.append(spider) # 把它加到列表里去
for s in queue:
s.join() # join的作用是把三个子线程加入主线程中,让主线程一直等待全部的子线程结束后才能结束
# 线程的特定--各干各的
print("结束")
print(len(urls))