![](https://img-blog.csdnimg.cn/20200626091737677.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
spider
文章平均质量分 63
download sth...
缦旋律
沉迷磕CP并努力敲代码的小陈
展开
-
使用Python下载电视剧(二):下载ts片段
文章目录1.任务介绍2.代码实现1.任务介绍拿到每一集的m3u8文件后,可以根据文件内的若干链接下载到对应的ts片段,然后根据key对应的链接获得视频解码的密钥对所有下载的ts片段进行解码。最后将所有片段拼接起来得到完整的一集视频。2.代码实现import requests,re,aiohttp,aiofiles,asyncio,osfrom Crypto.Cipher import AESdef decode_key(url): key_url = url.replace('inde原创 2022-04-11 20:28:04 · 1687 阅读 · 0 评论 -
协程处理下载任务
协程,对比单线程,async,await原创 2022-04-05 21:57:51 · 475 阅读 · 0 评论 -
多线程处理下载任务
python 多线程原创 2022-04-01 20:14:29 · 493 阅读 · 0 评论 -
download music.163的评论
文章目录1.任务介绍2.params和encSecKey的产生过程2.1 第一个参数2.2 后面三个参数3.代码实现(一个页面)4.download所有页面的评论1.任务介绍获取每首歌下面的所有评论,通过抓包工具,可以看到该请求返回的数据中,包含了一个页面(这首歌一共有261页评论)的20条评论因此,拿到每个页面的url就能得到所有评论数据。对headers进行查看,发现这是一个post请求,form data为params和encSecKey(下图为第一页的params和encSecKey):原创 2022-03-31 17:27:21 · 351 阅读 · 0 评论 -
python re模块常用功能
import restr = 'wyb出生于1997年,xz出生于1991年'pattern = r'\d+'# 1.findall:查找string中所有匹配的内容,返回一个listresult = re.findall(pattern,str)print(result) # ['1997', '1991']# 2.finditer:返回一个迭代器result = re.finditer(pattern,str)print(result) # <callable_iterato原创 2022-03-26 21:04:42 · 772 阅读 · 0 评论 -
正则常用符号
1.元字符.:匹配除换行符以外的任一字符\w:匹配字母or数字or下划线\s:任一空白符\d:任一数字\W:匹配非字母or数字or下划线\S:匹配非空白符\D:匹配非数字\n:换行符\t:制表符^:字符串开始$:字符串结尾a|b:匹配字符a或字符b():匹配括号内的表达式,也表示一个组[]:匹配字符组中的字符[^...]:匹配除字符组中的所有字符2.量词控制元字符出现的次数*:重复0次or更多次+:重复1次or更多次?:重复0次or1次{n}:重复n次,n为具体的整原创 2022-03-26 17:10:00 · 1655 阅读 · 1 评论 -
爬虫常用数据提取方式:正则、xpath、beautifulsoup
爬虫常用数据提取方式:正则、xpath、beautifulsoup原创 2020-12-19 17:16:46 · 916 阅读 · 3 评论 -
[数据可视化]Python爬取新浪数据并绘制动态条形图
先看一下最终的效果:主要分为以下步骤:1.从新浪微博爬取高清图片2.对图片进行文字识别,提取图片中的信息3.利用matplotlib绘制动态条形图原创 2020-07-16 09:21:03 · 699 阅读 · 0 评论 -
selenium、requests爬取新浪微博高清图片
使用selenium、requests爬取新浪微博高清图片。步骤超详细~原创 2020-07-15 11:16:50 · 1471 阅读 · 0 评论 -
字体反爬案例解析:大众点评
以大众点评为例,详细介绍字体反爬,含Python代码原创 2020-07-08 15:02:56 · 1321 阅读 · 0 评论 -
selenium爬取京东商品
文章目录step1:导入必要的包step2:模拟浏览器,打开京东首页step3:跳转到指定商品页面step4:捕获一个商品的信息step5:捕获所有页面中所有商品的信息step6:将爬取到的数据存储到excel中step1:导入必要的包from selenium import webdriverimport timeimport pandas as pdstep2:模拟浏览器,打开京东首页url = 'https://www.jd.com/'browser = webdriver.Chrom原创 2020-06-29 21:03:21 · 436 阅读 · 0 评论 -
selenium爬取淘宝商品信息
selenium爬天猫王一博施华洛世奇商品原创 2020-06-28 10:09:19 · 323 阅读 · 0 评论 -
HTML基础1
文本格式化预格式文本插入超链接以图片作为超链接原创 2020-06-26 17:17:41 · 93 阅读 · 0 评论 -
爬虫的本质
爬虫其实就是在模拟人浏览网页的过程因此爬虫就是要把自己伪装成浏览器去骗过服务器,让服务器把响应数据给它,然后再进行解析数据,最后把解析好的数据返回给人。原创 2020-06-26 10:11:54 · 751 阅读 · 0 评论