p y 语言
学爬虫首选py,你懂得
H-KING
学海无涯
展开
-
python3爬虫(1)爬取链家二手房
思来自己从写第一个程序到现在已有八年之久,熟练的编程语言也仅有C++,期间也学习过其他编程语言,蓦然回首发现已全然不记得,如狗熊掰棒子,最后怀里只剩下最后一个,自认为还算一个优秀程序员只会一种编程语言有点拿不出手,很是惭愧。静下心来想学python,其实自己的第一个程序也就是他了,这次学一定要搜索积淀,不能学完了也就忘完了,最好的方式是以实战为中心,亦即做一点实战项目,python名气最大的应该是...原创 2019-01-07 15:49:57 · 9812 阅读 · 16 评论 -
python3爬虫(2)下载有固定链接的视频
几个月前有个网友找到我,说有个项目一起合作,简单来讲就是下载网络视频。当时很是棘手,最终也没有搞定,想来是个损失,最近在学习python,试着再学习一下。实战案例:1.随便找个网络视频(非流媒体),我这里是用的包图网,进入首页https://ibaotu.com/2.搜索“过年视频”,会有一个视频列表,点第一个,https://ibaotu.com/sucai/513488.htm...原创 2019-01-07 18:09:02 · 11176 阅读 · 2 评论 -
python3爬虫(3)下载流媒体m3u8
现在很多视频网站采用流媒体技术进行播放音视频,一种常见的方案是m3u8文件+ts文件,虽然you-get库可以下载大部分主流视频网站里面的视频,那也只是主流的,并不是全部的,也不知道他是什么原理,流媒体下载要自己掌握里面的技术和原理才比较好,比如这个csdn学院里面的视频他就下载不了,虎牙直播直播的视频数据也下载不了。基础知识m3u8文件:其实就是一个ts文件列表,一个简单m3u8文件...原创 2019-01-08 16:42:00 · 118069 阅读 · 16 评论 -
python3爬虫(4)各种网站视频下载方法
理论上来讲只要是网上(浏览器)能看到图片,音频,视频,都能够下载下来,然而实际操作的时候也是有一定难度和技术的,这篇文章主要讲述各个网站视频资源如何下载。 B站视频页面链接:https://www.bilibili.com/bangumi/play/ep118490?from=search&seid=7943855106424547918首先我们用万能下载器“you-ge...原创 2019-01-09 11:06:23 · 103392 阅读 · 18 评论 -
python3爬虫(5)百度云盘暴力破解尝试
4年前写过一篇文章,暴力破解百度云,链接(当然这个方法早已失效):https://blog.csdn.net/liujiayu2/article/details/48953745当时写这篇文章的时候是同事的感召,他写了一个,心中想既然他能写那我也能写,没过多久果然弄出来了,成就感十足。C++写的,稍微有点麻烦,代码还是很清晰,百度网盘不会对验证码进行校验。这个是10分重要的,验证码验证还真...原创 2019-02-15 14:06:19 · 23805 阅读 · 12 评论 -
python3爬虫(6)爬虫代理的使用
网上免费代理有很多,免费的,爬取一下拿来用还是挺不错的,免费的意味着不提供任何服务,能用不能用人家才不管那么多,所以需要赛选一下。这两天研究了一下下,整理代码如下:西刺代理:#西刺:http://www.xicidaili.com/#import requestsfrom bs4 import BeautifulSoupimport pandas as pdimport tim...原创 2019-01-25 17:43:36 · 1470 阅读 · 0 评论 -
python3爬虫(7)反反爬虫解决方案
本文转载自:https://github.com/luyishisi/Anti-Anti-Spider越来越多的网站具有反爬虫特性,有的用图片隐藏关键数据,有的使用反人类的验证码,建立反反爬虫的代码仓库,通过与不同特性的网站做斗争(无恶意)提高技术。(欢迎提交难以采集的网站)(因工作原因,项目暂停)https://www.urlteam.org特别说明:这个项目最初源于对自己爬虫代码...转载 2019-03-05 15:51:26 · 3524 阅读 · 0 评论 -
python3爬虫(8)爬虫框架scrapy安装和使用
一:scrapy的windows下安装① 安装Python3.6,浏览器打开官网,找到适合自己操作系统的版本下载即可,注意Customize installation 为自定义安装路径,不要忘记勾选pip 进行安装。②安装pywin32.网址:https://sourceforge.net/projects/pywin32/files/pywin32/下载相应版本的.exe 文件,下载...原创 2019-03-08 11:10:11 · 947 阅读 · 0 评论 -
python3爬虫(9)分布式爬虫与对等分布式爬虫
原文链接:http://www.dataguru.cn/thread-529666-1-1.html谈谈主从分布式爬虫与对等分布式爬虫的优劣主从式(Master-Slave)对于主从式而言,有一台专门的Master服务器来维护待抓取URL队列,它负责每次将 URL分发到不同的Slave服务器,而Slave服务器则负责实际的网页下载工作。Master服务器除了维护待抓取URL队列以及...转载 2019-03-10 16:02:40 · 1152 阅读 · 1 评论