爬虫
文章平均质量分 62
留小星
持续更新 CV、NLP、语音、地震学领域深度学习相关阅读和学习笔记、手动实现各类深度学习网络结构(CNN、Transformer、GAN、DDPM、LLM)
展开
-
白嫖代理去哔哩哔哩看冰冰!!!确定不进来康康?
文章目录1. 爬取代理ip和port1.1 快代理免费代理地址1.2 泥马代理2. 验证ip和port2.1 使用httpbin网站验证ip和port是否可用2.2 再筛选符合最终目的要求的ip和port(这里以bilibili为例)1. 爬取代理ip和port1.1 快代理免费代理地址https://www.kuaidaili.com/free/inha/import requestsfrom bs4 import BeautifulSoupfrom lxml import etreeimp原创 2021-08-12 21:32:25 · 23685 阅读 · 0 评论 -
python爬虫(四)——selenium自动填报
文章目录一、selenium自动填报1.流程2.分析3.主要代码4.注意(期间可能出现的报错)二、windows10自动运行程序进行填报说明:由于本次selenium自动化填报的网站需要个人信息、密码、校园网络VPN的支持,所以我将关于个人信息、网址的相关内容进行了隐藏。主要展示填报的方法、流程。一、selenium自动填报1.流程1)登录网站2)跳转到填报页面3)填写内容,提交表单4)关闭提交页面2.分析1)登录网站、填写内容都需要进行信息的传递使用selenium进行控制比较方便2)原创 2020-10-25 14:14:49 · 4374 阅读 · 0 评论 -
python爬虫(三)——多线程+正则匹配下载图片(wallheaven图片网站)
多线程+正则匹配下载图片(wallheaven图片网站)1. wallheaven 壁纸网站这个网站的图片是提供下载的,在壁纸类别之中质量非常高,包括了很多的高清图片。详细情况可访问其主页页面:wallheaven2、分析网页架构1)获取全部页面的地址分析网页主页地址为:https://wallhaven.cc/输入关键词china进行查询后,地址变为:https://wallhaven.cc/search?q=china下滑到第二页之后,地址变为:https://wallhav原创 2020-10-20 16:22:35 · 3435 阅读 · 7 评论 -
Python爬虫(二)——多线程下载壁纸图片(星月设计网)
Python爬虫——多线程下载图片(星月设计网)星月设计网目的:学习多线程爬虫与练习图片缓存,熟悉redis应用(此处redis应用非常浅显)redis存储结构:使用hash存储,name为图片的名称,内部键值对包括了图片名称、图片url地址、图片作者、图片评分等信息使用到的python库:os、requests、redis、lxml、urllib.request、threading、queue等1. 导入相关库import osimport requestsimport redis原创 2020-10-19 22:34:53 · 7667 阅读 · 2 评论 -
python爬虫(一)——爬取咚漫漫画信息(非下载漫画)
python爬虫——咚漫漫画信息(非下载漫画)目的:回顾爬虫,联系redis存储使用python库:requests、bs4、redis、lxmlredis存储结构:使用hash格式存储,其name使用漫画的名称,里面存储于漫画相关的键值对。使用的编辑器为jupyter notebook,操作系统linux,当然对于python代码而言,操作系统影响不大,移植没难度。一、导入函数import os,sysimport requestsimport bs4import redisfrom原创 2020-10-19 10:43:57 · 1526 阅读 · 0 评论