使用爬虫如果不是用来收集数据,还能做什么有趣的事情

版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/Ly4wU5giY/article/details/78098957

关注公众号的很多朋友都是爬虫爱好者,但是仅仅是爬虫,很多人对收集来的数据无从下手或者感觉爬虫只能用来收集数据,久而久之甚至对爬虫失去了兴趣。那么爬虫真的是只能用来收集数据吗?显然不是。


今天我就来和大家说说我以前的一些爬虫经历一些小故事,本故事我上次已经发在知乎的某回答里。由于公众号无法放超链接,所以本文涉及的一些资源链接请点击阅读原文查看。


最开始的时候我就是简单的做爬虫,抓出来一些数据,觉着自己真是太厉害了,那时候的兴趣来源于我可以用代码把一些有意思的数据快速大量的提取出来,而那时候最大的成就感就是在终端看着数据一条一条的打印出来,别提多兴奋。

慢慢的爬虫做了很多,我发现无论是在本地、我的服务器上或者数据库里都有一堆数据,像下面这样子的:

  • 100万知乎用户数据.txt

  • 600万B站视频信息.xls

  • 链家南京租房数据.csv

  • music163.sql


这些数据我要怎么处理掉呢?直接删除了吗?舍不得啊,听说有一个叫可视化的东西可以把手中的一些数据进行展示,听起来好像不错的样子。

更让我兴奋的是Python竟然有这个可视化的库
Matplotlib,真是太友好了。但是当我动手去做的时候发现了一些问题,好像光有图表不行,因为在进行可视化之前我必须要对数据进行一些统计计算,通过种种途径我知道了另一个Python进行科学计算的库NumPy ,准备了这么多之后我发现终于我可以做出一些简单的图表了。

不过这些图为什么没有别人的好看呢?直到我认识了美如画的
ECharts再后来在某次看美国佬公开课的时候我发现了比Echarts更加漂亮的图表,到处询问之后,终于揭开了它的真面目D3.js

事到如此,我已经能做出令自己的满意的图表了,而在这一而再再而三的过程中,我也学到了一些比较有意思的知识。

有一段时间,我感觉没有什么有意思的数据可以爬了,碰巧我好朋友发来一个消息

我女朋友在参加一个比赛,要投票,帮我投一下,网址:xxx。
好啊,没问题!
对了,这个投票可以一直投,投完一次你只要清除一下浏览器cookie就能继续投了,没事的话你帮我多投一投。

等等,还有这么渣渣的设定?!那意思是不是我可以用Python去模拟无限次的投票呢?说时迟那时快,话语间我操起F12...一顿分析之后发现这里的投票,只需要每次往一个url上post两个固定参数就行了。

不到五分钟,我用Python写出了代码,然后用多线程刷起了票,而当时我好朋友的女朋友的排名也就顿时上升到了第一名,这事情我骄傲了好一段时间。

除了对你收集来的数据做可视化,没有别的玩法了吗?一定要写爬虫吗?我看未必,何不尝试:


1、每隔半小时从糗事百科随机抓取一个段子发布到自己的新浪微博上,这事情我干过,不信你去看看我之前测试用的微博:Sina Visitor System,至于怎么做这儿给你两篇文章:


如果你嫌模拟登陆麻烦,告诉你一个投机取巧的方法:先自己登陆新浪微博然后把cookie取出来保存到本地,下次使用。

2、写一个微信订阅号机器人,你可以和他发文字或者语音聊天,这事我也做过。
怎么做?
小黄鸡网页版聊天机器人你去调它的接口就行了,至于Python微信开发,你可以看看这个:从零开始 Python 微信公众号开发

怎么样?是不是发现不止是爬虫了?


那么除了上面这些,你做过哪些有趣的事情呢?欢迎在评论区留言“我要投稿”与2万程序员们分享你的经历,我将会联系你。


如果觉得不错,欢迎转发到朋友圈。


640?wx_fmt=jpeg

展开阅读全文

没有更多推荐了,返回首页