爬虫
文章平均质量分 75
cuoguo_xin
这个作者很懒,什么都没留下…
展开
-
下载m3u8加密视频
原本写了一个利用m3u8下载ts并合并成一个完整视频的文章,但有人问我说ts视频下载下来看不了,我想很大可能是下载下载的视频是加密的,所以这次我准备写一个下载加密视频的方法,这个方法不需要代码,按照一步步走就行。一、下载ts视频如利用m3u8下载ts并合并成一个完整视频所示,先把m3u8文件下载一下,但这次是加密视频,所以下载的还有一个key.key文件,如图所示。如果下载不下来也没事,在...原创 2019-11-14 10:46:54 · 10755 阅读 · 1 评论 -
利用m3u8下载ts并合并成一个完整视频
我们在用网页看视频时,很多时候视频是下载不下来的,当然这里面有很多技术来防止我们下载视频,接下来我将破解使用m3u8格式来下载视频。一般情况下,我们使用浏览器中Network来查看服务器和本机的数据传输,而视频的原地址有时也会发现,但使用m3u8格式时,我们会发现视频被分成一段一段的,每段只有几秒中,这样做的目的既可以方便播放,也可以防止下载。下面我以央视网为例,做讲解。目标:下载央视网《开讲...原创 2019-05-05 17:41:14 · 81841 阅读 · 11 评论 -
爬虫代理设置--爬取ip池、验证ip是否可用、验证代理ip是否能用
昨天在爬取大众点评的时候,刚开始还好好的,但一会就把我的ip给封啦,所以我就想给自己弄一个ip池,这样我就可以继续爬啦。网上找了一堆代码,发现好多都是python2的,它们请求使用urllib2的库,这个库在python3中合并成urllib,所以很多方法调用都出现错误,所以我还是决定用requests。一、获得代理ipdef get_ip_list(obj): ip_text = obj...原创 2018-07-13 22:17:35 · 8042 阅读 · 4 评论 -
利用xpath爬取网页
xpath应该是爬取网页最简单的方法啦,因为你需要要懂xpath,可以直接通过浏览器来获取你想要的内容。以Chrome为例,按f12检查网页,用箭头点击自己想要的地方,比如我想提取出“故宫博物院”的xpath地址,右击,点击copy,然后选择copy xpath。这样我们就获得“故宫博物院”的xpath。我们通过Chrome插件xpath helper来验证我们提取的xpath是否正确。完全正确。...原创 2018-07-10 22:21:19 · 13007 阅读 · 2 评论 -
爬取链家网站的北京租房信息
本来准备这个暑假好好复习,但学校安排暑期实践,既然学校安排这个,而且我自己也觉得需要提高一下自己的能力,所以静下心来做点事吧。我们要做到项目是分析北京地区的租房的信息分析。我们需要做的是爬取链家网站上北京地区的租房信息。链家作为国内比较出名的房地产中介公司,发布的房地产租房信息还是不叫权威的。我们需要做的分为两步:找到各个租房页面的链接,爬取每个租房页面的数据。第一步找到每个租房页面的链接,北京地...原创 2018-07-03 20:07:23 · 1582 阅读 · 0 评论 -
python爬取小说并下载
本人喜欢看小说,书龄也很大了,一些主流的书看完了,现在在看一本书,叫《仙魔同修》,作者叫流浪。但有另一本书和他同名,并且名气比它大,所以网上的很多下载资源都是这本书。我想下载下载看,但在网上没有找到资源,所以我想自己动手写一个爬虫,把这本书下载下来。 我们所用的库主要有两个:BeautifulSoup和requests 。前者是从爬取下来的HTML文档中提起自己想要的内容,后者负责将HTML原创 2018-02-07 21:50:40 · 1459 阅读 · 0 评论