![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫之路
文章平均质量分 59
Flintx
鲜衣怒马少年时
展开
-
【爬虫之路】A站文章围观量&B站视频播放量的简单爬虫想法
众所周知,acfun与bilibili一直是国内受到广泛关注的宅社区以及二次元社区,一直以来我有一个想法,便是如何获知两个网站里最有意思的作品,仅仅依靠官方的推荐并不足以满足个人化的需求。 于是这只小爬虫便诞生了。0.一开始的想法是抓取b站av8到av2000000+的近两百万个视频的播放量,然后降序排序。 但面临着两个问题,一是播放页并非静态网页,播放量来自于js自动生成,于是我们通过抓取一个原创 2015-04-11 16:55:56 · 7896 阅读 · 0 评论 -
【爬虫之路】一点有关学习BeautifulSoup的笔记
不务正业也要按照基本法。。资料参考:http://cuiqingcai.com/1319.html.BeautifulSoup是python的一个html解析库,最新版本是bs4,但不兼容python3,所以这次是用的python2.7写法。。导入主要用到的三个库:import requestsfrom bs4 import BeautifulSoupimport re首先要解决一下乱码问题:原创 2015-10-23 16:22:22 · 648 阅读 · 0 评论 -
【爬虫之路】批量下载5sing上一位歌手的全部歌曲
实现思路是这样的: 1.访问songer的所有作品列表页,例如: http://5sing.kugou.com/marblue/fc/1.html 显示的是songer的翻唱作品第一页,修改链接访问所有作品列表页即可。2.正则表达式抓取作品id号与歌曲名字。3.以id为14041908的翻唱作品为例,利用id号与歌曲类型生成链接: http://5sing.kugou.com/fc/Down原创 2015-04-26 23:15:55 · 5558 阅读 · 6 评论