网络爬虫
数据分析获取网络数据
Do.it
日常分享学习上遇到的各种问题和案例。
展开
-
抖音无水印视频轻松实现
ideo_name = int(random.random() * 2 * 1000) if len(str(video_name)) > 20: video_name = video_name[:20] video = requests.get(video_url, headers=he原创 2020-11-27 19:51:58 · 2214 阅读 · 0 评论 -
抓取不带水印的壁纸
背景:在刷视频的时候经常遇到这种情况,那就是突然弹出非常好看的壁纸,然后准备下载保存下来的时候却发现存在这不可抹去的水印,今天刚好自己遇到了,所以准备记录下自己的实现过程。实现:1.同样的打开抖音推荐的壁纸视频,点进去居然还是长图,所以我们直接提取它的链接(分享的复制链接):https://v.kuaishouapp.com/s/XhsvLjn9然后在电脑上打开网址转换成:https://m.gifshow.com/fw/photo/3x3yk9y3s5e9cis?did=web_6735b618d原创 2020-11-27 19:45:44 · 952 阅读 · 0 评论 -
Python爬取皮皮虾视频
背景:今天闲着没事做,然后想着刷刷视频,然后发现前段时间学习了一下网络爬虫的一些基本应用,就想着利用爬虫到网上去爬取一点视频来模拟人为的点击“下载操作”。因为皮皮虾是手机端的app,所以就肯定不能把目标放到软件上。所以我们的重点就是下载分享的链接上。我们随便选取一个视频点击分享后发现,我们可以直接复制视频的链接,所以就可以开始了:1.打开软件随便选取一个视频点击分享,然后将分享的连接在电脑上打开比如 :https://h5.pipix.com/s/JQaxYVx,电脑打开之后的链接变成:https:原创 2020-11-27 16:45:13 · 2427 阅读 · 1 评论 -
微博热搜榜动态演示
背景:我们知道基于网络爬虫,网页抓取需要考虑很多网页加载的方式来选择合适的爬取方法,但是微博热搜榜我们发现在网页源代码中就可以轻松获得 热度其和热搜内容。今天就尝试着利用网络爬虫和可视化进行动态演示。一、准备工作1.打开微博热搜榜单网址查看热搜榜单内容和热度。https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=62.选择开发者工具选择查看源代码,选择Network刷新页面获得相应内容,这里选择第一个请求查看Resp原创 2020-11-13 11:01:19 · 701 阅读 · 0 评论 -
Ajax动态网页的信息抓取(入门)
背景:不知道你们在学习网络爬虫过程中是否遇到过这样的问题,那就是在使用requests抓取页面信息的时候,抓取的结果和在浏览器上看到的不一样。浏览器中显示正常的页面数据,但是抓取的却是没有具体数据或者说只是首界面的源码。那就是因为现在很多Web页面的原始HTML页面不会包含任何数据,数据都是通过Ajax统一加载出来再呈现出来的,这样Web就可以做到前后端的分离,而且降低了服务器直接渲染页面带来的压力。举个例子,我们的微博页面,当你一直往下滑的时候内容就加载完了,页面没有刷新,链接也没有变化,但是等待加载圈原创 2020-10-30 20:17:31 · 795 阅读 · 0 评论 -
正则表达式和requests抓取猫眼电影排行
一、目的利用学习的requests库和正则表达式抓取猫眼电影的排行榜的名称、时间、评分和图片等信息。提取站点的地址:https://maoyan.com/board/4二、准备工作确保开发环境安装好了requests库。三、抓取分析打开提取站点的地址查看榜单信息,如图1:排名第一是射雕英雄传之东成西就,显示在主界面的有影片的名称、上映时间和地区、主演、评分和图片。翻到下面点击下一页URL地址相应发生改变,如图2:第一页的地址是:https://maoyan.com/board/4第二页的地原创 2020-10-30 09:12:17 · 856 阅读 · 0 评论 -
requests爬取二进制数据
当我们了解到urllib的基本用法之后,发现其中确实有很多不方便的地方,比如处理网页验证和Cookies的时候需要写Opener 和Handler来处理。今天给大家加好更加强大requests库抓取简单的二进制数据:1.下面以GitHub的站点图标来来一下:这边利用requests抓取站点图标,打印了Response的两个属性:text和content.运行结果如图:可以注意到,前者出现了乱码,后面出现了以b开头的数据(byte类型的数据)。因为图片是二进制数据,前面在打印的时候直接转换成str类原创 2020-10-29 11:59:51 · 1870 阅读 · 1 评论