![](https://img-blog.csdnimg.cn/20210328140435429.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
python爬虫
文章平均质量分 90
爬虫教程及案例分享
程序员大飞1
这个作者很懒,什么都没留下…
展开
-
《长津湖》、《我和我的父辈》,Python国庆档影评分析
读者朋友们大家好啊,我是小张~国庆小长假昨天就已将结束了,我们呢,也各自回到自己的工作岗位,继续开启我们的努力搬砖( 摸鱼)生活从19年开始,每逢十一就会上映一部以 我和我的* 主题的电影来喜迎国庆,并且按照前两年票房趋势,这部电影的欢迎程度远大于同时期上映的其它电影,票房稳居第一今年也不例外上映了一部《我和我的父辈》,以4个 片段来讲述父母与孩子之间的故事,内容也受到大众的肯定;但令人意外的是它的票房,要远低于另一部国庆档《长津湖》,热度和好评数原高于前者,关于其中的具体细节,本文以此来做个影评分原创 2021-10-10 19:08:06 · 2012 阅读 · 3 评论 -
火爆全网的《鱿鱼游戏》,今天用 Python 分析一波影评
Hello,各位读者朋友们好啊,我是小张~这不国庆嘛,就把最近很火的一个韩剧《鱿鱼游戏》刷了下,这部剧整体剧情来说还是非常不错的,很值得一看,作为一个技术博主,当然不能在这儿介绍这部剧的影评,毕竟自己在这方面不是专业的,最关键还是自己也写不出来,,,本文呢,主要是爬取《鱿鱼游戏》在豆瓣上的一些影评,对数据做一些简单的分析,用数据的角度重新审视下这部剧技术工具在正文开始之前,先介绍下本篇文章中用到的技术栈和工具。本文中涉及到的全部源码数据,在公众号【小张Python】后台回复关键字 211003 即原创 2021-10-03 19:05:34 · 4346 阅读 · 0 评论 -
Python爬虫 —3000+条北京二手房数据可视化分析
哈喽,我是小张,大家好久不见啊~最近呢,对链家平台上的北京二手房数据做了个可视化分析,对目前北京的二手房交易情况有了个大致了解,最终得到一个很实在的结论:奋斗一辈子也买不到一个厕所这句话不是骗人的,是真的;关于具体分析内容客官请看下文1,工具说明本文用到的 Python 库有pandasrerequestsjsonpyechartsfoliumrandomstylecloudjiebapyqueryfake_useragenttime外加 百度地图 API2,数据采集所原创 2021-03-04 01:00:04 · 5508 阅读 · 6 评论 -
为了自动采集B站弹幕,我用Python开发了一个下载器
大家好,我是小张!在《Python制作词云视频,通过词云图来看小姐姐跳舞》文章中简单介绍了B站弹幕的爬取方法,只需找到视频中的参数 cid,就能采集到该视频下的所有弹幕;思路虽然很简单,但个人感觉还是比较麻烦,例如之后的某一天,我想采集B站上的某个视频弹幕,还需要从头开始:找cid参数、写代码,重复单调;因此我在想有没有可能一步到位,以后采集某个视频弹幕时只需一步操作,比如输入想爬取的视频链接,程序能自动识别下载实现效果基于此,借助 PyQt5 我写了一个小工具,只需提供目标视频的 url 以及目标原创 2021-02-21 10:06:54 · 630 阅读 · 0 评论 -
从《【何同学】我拍了一张600万人的合影...》弹幕分析中,获取到了什么?
这篇博文很早就打算写了,但因为懒一直拖到现在,先交代一下博文选材背景:8月2号,B 站数码 Up 主 老师好我叫何同学 更新了一个视频《【何同学】我拍了一张600万人的合影… 》(离他的上一个视频更新已经一个多月),来纪念频道成立三周年虽说在何同学提前一天的预告中就猜到这个视频的质量一定不会差,但看完之后,内心只有俩字牛逼!,这个视频真的真的惊艳到我了,赞叹于他视频制作水准,佩服于他对粉丝的用心;在看视频中看到一条弹幕,觉得评价地很中肯:等一个多月看到这个视频、值了!关于这个视频还是很推荐,截至到8月8原创 2020-08-23 12:51:54 · 909 阅读 · 0 评论 -
回家的票买到了么?今天教你如何用 Python 抢票
个人微信公号:小张Python ,欢迎大家关注!大家好,我是 zeroing~马上该过年了,不知道大家都买到回家的票了没?每到年末,票就变得特别难搞,今年因为疫情管控可能要比往年好一点,但依旧不好抢,,,对于路途相对较远的小伙伴,一旦错过了最佳放票时机,之后抢到票的的可能性很小,因为跟你一起竞争抢票的大部分都不是人而是自动化程序,在一秒之内就能完成购票下单的那种(当然,也是在有票的前提下)今天呢,给大家介绍一个 12306抢票 相关的开源项目,并手把手教大家把程序跑起来,希望我们大家都能抢到回家.原创 2021-01-18 10:52:47 · 1170 阅读 · 0 评论 -
数据分析实战——有哪些让你不得不服气的神逻辑(知乎)
1,前序本篇文章爬取了知乎上的 有哪些让你不得不服气的神逻辑? 的答案,一共爬取了100条数据左右,分别收集了答题者名字、粉丝数量、性别、头像图片链接,答案评论数、点赞数等方面数据,刚好自己最近在学 matplotlib 和 pandas; 就利用这些数据做了个简单分析,巩固一下知识!2,数据可视化与分析2.1 答案点赞数与评论数正相关对于知乎上问题的答案来说,点赞代表对答案内容的认同,...原创 2020-02-18 17:34:15 · 610 阅读 · 0 评论 -
从《我和我的祖国》、《攀登者》和《中国机长》影评中看到了什么
分析背景为了喜迎祖国70周年庆典,国庆前夕上映了《我和我的祖国》、《中国机长》和《攀登者》,这三部电影都是根据祖国发展史上真实故事改编,无论是阵容还是内容来看都属于精品,尽管如此,对大众来也会有质量高低之分。爬虫心得为了看看大众对于今年这3部国产佳作的态度,我特地用python爬取了豆瓣上的关于三部电影部分影评,做了一个简单数据分析,具体分析过程与结果如下。通过观察,发现豆瓣影评的获取...原创 2019-10-07 21:36:04 · 1837 阅读 · 1 评论 -
教你如何快速构建ip代理池!
做爬虫时,遇到访问太频繁IP被封是难以避免的,而本地单个IP是不足以进行大规模爬取,并且自己并不想购买付费代理,在这里构建一个IP代理池是非常有必要的。代理池主要由5部分组成:ProxyGeter(代理获取模块)、RedisClient(代理管理模块,负责存储、删除、取出等基本操作)、Texter(代理可用性测试模块)和Web_Api(用户获取模块)。ProxyGeter从几个代理网站爬取...原创 2019-09-10 10:04:01 · 1270 阅读 · 0 评论 -
python爬虫js加密篇—搜狗微信公号文章的爬取
今天这篇文章主要介绍的是关于微信公众号文章的爬取,其中里面主要涉及的反爬机制就是 js加密与cookies的设置 ;微信公众号的上一个版本中的反爬机制中并没有涉及到js加密,仅通过监控用户ip,单个ip访问太频繁会面临被封的风险;在新的版本中加入了js加密反爬机制,接下来我们来逐步分析一下文章爬取过程打开搜狗页面搜狗微信页面,在输入框中输入任意关键词例如火车隧道起火,搜出来的都是涉及关键词...原创 2019-08-31 10:05:47 · 1913 阅读 · 0 评论 -
python爬取了《哪吒》14万影评,最后的分析结果是这个
《哪吒》逼逼叨《哪吒之魔童降世》作为暑假档的黑马,给了我们太多的惊喜;从点映之前知名度、宣传度几乎全为零的状态,凭借着自己燃爆的口碑自上映起,票房从5亿突破到10亿、一路上升到20亿、30亿,直到目前的37亿,位居国内影史票房总榜第四,国产动漫影片第一。《哪吒》跟电影中想要映射的主题一样: 我命由我不由天。 在宣传期间,一部知名度极低、不具有任何流量特征的电影, 自上映起的21天内,连续20...原创 2019-08-19 23:28:09 · 2256 阅读 · 1 评论 -
python爬虫—关于淘宝商品的爬取
之前爬过一次淘宝,当时这个网站没怎么设置很厉害的反爬措施,能够很轻松地获取上面的数据:销量啊、价格啊、以及好评等等,做一些可视化的图表,对于将要在淘宝平台售卖商品的商家具有很好的参考意义。现在的淘宝已经不是原来的淘宝了,现在必须要用户登陆才能查看里面的商品信息,所以反爬措施大大提高了,就如同知乎一样,爬数据之前需要解决网站模拟登陆的问题。关于登陆,这里我推荐大家两种解决方法:第一种是selenu...原创 2019-05-09 23:42:02 · 4135 阅读 · 0 评论