Python爬虫
农夫三犭
这个作者很懒,什么都没留下…
展开
-
Python——利用线程池批量下载视频
video_url = detail_page_text['videoInfo']['videos']['srcUrl'] video_data_list = video_url.split('/', -1) id_num = video_data_list[6].split('-', 1) # 实际下载链接后面的一串数字与提取到的不一样 video_data_list[6] = contId + '-' + id_num[1] # 拼接字符串,获得链接后面真实的数字...原创 2021-02-18 13:54:22 · 287 阅读 · 0 评论 -
代码
# -*- coding = utf-8 -*-# @Time : 2021/1/9 11:04# @author: 农夫三犭# @File : 视频.py# @Software:PyCharmimport requestsfrom lxml import etreeimport randomfrom multiprocessing.dummy import Poolheaders = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0原创 2021-02-18 11:47:36 · 192 阅读 · 0 评论 -
Python爬虫之selenium批量下载歌曲
任务利用requests从网易云获取某位歌手的歌单列表,并取前10首进行保存。通过selenium实例化一个浏览器对象,并自动将歌单传入下载网站获取歌曲下载地址。通过访问歌曲下载地址,进行歌曲的持久化存储。分析首先对目标url发起请求,获取页面源码数据。利用xpath解析到歌名所在标签,并将其存储在列表中url = 'https://music.163.com/artist?id=2111'page_text = requests.get(url=url, headers=header原创 2021-02-18 11:41:31 · 1152 阅读 · 0 评论 -
Python爬虫之验证码识别
要求爬取超级鹰网站登录时的验证码图片,并保存在本地。利用超级鹰提供的例程代码对验证码图片进行识别,并将识别结果打印出来。分析超级鹰是一个验证码识别平台,使用它首先需要注册一个账号,新用户首次注册可能需要充值(可以先充1元或者几毛)。注册完成后,接着需要生成一个软件ID,ID会在代码中使用到。(用户中心—>软件ID—>生成一个软件ID)最后在开发文档中找到对应的python文档,下载解压后,会有一个验证码识别的python代码,本文就是利用例程代码对保存的验证码图片进行识别。准原创 2021-01-04 21:35:18 · 644 阅读 · 0 评论 -
Python爬虫之起点中文网完本小说
任务爬取起点中文网前5页(页数可改)完本小说将爬取到的小说名字、作者、链接以及相关简介保存到一个excel表格中分析通过检查网页的源码可知,浏览器发起的是get请求,返回的数据类型是text/html。因此可以调用requests模块中的get() 函数得到页面源码数据headers = { 'User-Agent': 'Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko原创 2020-12-29 12:29:04 · 2119 阅读 · 3 评论