
爬虫
lengye7
这个作者很懒,什么都没留下…
展开
-
M3U8文件
M3U本质上说不是音频文件,它是音频文件的列表文件,是纯文本文件。你下载下来打开它,播放软件并不是播放它,而是根据它的记录找到网络地址进行在线播放。 M3U文件的大小很小,也就是因为它里面没有任何音频数据。把M3U文件直接转换为音频文件是不可能的,除非你把它指向的音频文件下载下来再作处理。m3u格式的文件只是存储多媒体播放列表,提供了一个指向其他位置的音频视频文件的索引,你播放的还是那些被指向的...转载 2019-01-26 14:05:39 · 5204 阅读 · 0 评论 -
转载:python爬取网站m3u8视频,将ts解密成mp4,合并成整体视频
转载自:https://blog.csdn.net/a33445621/article/details/80377424一些网站会提供m3u8视频地址,以供下载观看。或者一些网站经过分析后发现是使用m3u8格式进行播放的,这时使用m3u8的地址链接就可以下载到相应的视频。一、关于m3u8:(https://blog.csdn.net/baidu_34418350/article/detai...转载 2019-01-25 19:46:13 · 4027 阅读 · 1 评论 -
转载:视频网站中video标签中的视频资源以blob:http呈现的探索
一、问题场景 想下载知乎视频资源,却发现视频链接是这个样子的blob:https://v.vzuu.com/b6146956-6e52-406d-8909-f3f1b81ae461当时一脸懵比啊 ~难道blob:https是什么牛逼的新协议?于是进行了一番探索二、探寻结论 结论就是blob:https并不是一种协议,而是html5中blob对象在赋给video标...转载 2019-01-25 19:42:47 · 6143 阅读 · 0 评论 -
转载:爬虫,关于 video 标签 src 带有blob:http的 一些想法
转载自:https://blog.csdn.net/Angry_Mills/article/details/82705595大家好,我是烤鸭: 之前玩爬虫的时候,看到过video标签中src属性引入的blob:http:xxxx,当时没找到解决思路,今天又遇到类似问题,就试着找了一下。这是有人问过 https://vimeo.com/ 这个网站的视频怎么下载。 htt...转载 2019-01-25 18:15:24 · 4825 阅读 · 0 评论 -
转载:抓取前端渲染的页面
随着AJAX技术不断的普及,以及现在AngularJS这种Single-page application框架的出现,现在js渲染出的页面越来越多。对于爬虫来说,这种页面是比较讨厌的:仅仅提取HTML内容,往往无法拿到有效的信息。那么如何处理这种页面呢?总的来说有两种做法:在抓取阶段,在爬虫中内置一个浏览器内核,执行js渲染页面后,再抓取。这方面对应的工具有Selenium、HtmlUnit或者...转载 2019-01-25 17:15:18 · 594 阅读 · 0 评论 -
Tag Archives: simhash
转载自:http://www.lanceyan.com/tag/simhashTag Archives: simhash海量数据相似度计算之simhash短文本查找Posted on 8 九月, 2013 by lanceyan | 45 Replies在前一篇文章 《海量数据相似度计算之simhash和海明距离》 介绍了simhash的原理,大家应该感觉到了算法的魅力。但是随着业务的增长 sim...转载 2018-04-02 15:33:20 · 269 阅读 · 0 评论 -
[DataAnalysis]数据挖掘常见的几种分类算法
转载自:https://blog.csdn.net/TOMOCAT/article/details/79102867一、数据挖掘任务分类1、预测性和描述性的主要区别在于是否有目标变量2、预测性包括分类和回归:(1)分类:输出变量为离散型,常见的算法包括(朴素)贝叶斯、决策树、逻辑回归、KNN、SVM、神经网络、随机森林。(2)回归:输出变量为连续型。3、描述性包括聚类和关联:(1)聚类:实现对样本...转载 2018-04-02 15:24:34 · 19431 阅读 · 0 评论 -
数据挖掘-各种分类算法的优缺点
转载自:https://blog.csdn.net/shuke1991/article/details/52056382决策树一种启发式算法,核心是在决策树各个节点上应用信息增益等准则来选取特征,进而递归地构造决策树。优点:1. 计算复杂度不高,易于理解和解释,可以理解决策树所表达的意义;2. 数据预处理阶段比较简单,且可以处理缺失数据;3. 能够同时处理数据型和分类型属性,且可对有许多属性的数据...转载 2018-04-02 15:19:12 · 5007 阅读 · 0 评论 -
数据挖掘分类算法
转载自:https://www.cnblogs.com/heiye123/articles/7440687.html讨论QQ:465925664目录 1.线性判别法 2.距离判别法 3.贝叶斯分类器 4.决策树 decision tree 5. Knn算法(k近邻算法) 6. 人工神经网络(ANN=Artificial Neural Networks) 7.支持向量机 SVM 正文常见分类模型与...转载 2018-04-02 15:17:08 · 3290 阅读 · 0 评论 -
数据挖掘分类算法评价指标
转载自:http://blog.jobbole.com/90173/一、引言分类算法有很多,不同分类算法又用很多不同的变种。不同的分类算法有不同的特定,在不同的数据集上表现的效果也不同,我们需要根据特定的任务进行算法的选择,如何选择分类,如何评价一个分类算法的好坏,前面关于决策树的介绍,我们主要用的正确率(accuracy)来评价分类算法。正确率确实是一个很好很直观的评价指标,但是有时候正确率高并...转载 2018-04-02 15:15:06 · 4989 阅读 · 0 评论 -
simhash算法及原理简介
背景如何设计一个比较两篇文章相似度的算法?可能你会回答几个比较传统点的思路:一种方案是先将两篇文章分别进行分词,得到一系列特征向量,然后计算特征向量之间的距离(可以计算它们之间的欧氏距离、海明距离或者夹角余弦等等),从而通过距离的大小来判断两篇文章的相似度。另外一种方案是传统hash,我们考虑为每一个web文档通过hash的方式生成一个指纹(finger print)。下面,我们来分析下这两种方法...转载 2018-04-02 14:48:06 · 54738 阅读 · 10 评论 -
网站历史博物馆来过反爬
一、网站历史博物馆是什么网站历史博物馆是专门针对整个互联网的历史进行备份的一个网站,在该网站上可以看到大部分的网站的历史快照,其数据完整程度取决于该网站本身,有很多这种网站,其数据库的数据量甚至超过搜索引擎。目前国外比较知名的是archive.org 准备好梯子国内的是忆网昔www.lookforpast.com另外有一个中国web信息博物馆的网站,但是目前打不开,不知道什么情况。archiv...原创 2018-03-27 23:56:50 · 6634 阅读 · 0 评论 -
spider anti-spider anti-anti-spider,爬虫和反爬
作者:申玉宝链接:https://www.zhihu.com/question/28168585/answer/74840535来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。爬虫(Spider),反爬虫(Anti-Spider),反反爬虫(Anti-Anti-Spider),这之间的斗争恢宏壮阔...Day 1小莫想要某站上所有的电影,写了标准的爬虫(基于HttpC...转载 2018-03-27 23:52:04 · 410 阅读 · 0 评论