- 博客(5)
- 资源 (2)
- 收藏
- 关注
原创 Python爬虫学习记录(0)——Python 爬虫抓站 记录(虾米,百度,豆瓣,新浪微博)
python 下用到的库,urllib, urllib2, BeautifulSoup, cookielib, mechanize, re看Firebug模拟浏览器行为。1. 虾米虾米不用登陆,没有IP限制,最简单。Python抓了下Xiami电台的试听数 里用的是import urllib2content = urllib2.urlopen('ht
2015-08-30 22:33:19 14216
原创 Python爬虫学习记录(5)——python mongodb + 爬虫 + web.py 的acfun视频排行榜
最早这个代码是写给所里那个863项目的,想自动下载热门视频,推送到高校的人民日报的电子板上,后来因为视频内容太和谐作罢,改成推荐优酷土豆的视频code:http://pan.baidu.com/share/link?shareid=72883403&uk=1006940630鉴于trend.avfun坏了。。做个avfun视频排行。希望avfun别老改界面~。~
2015-08-30 22:30:42 6149
原创 Python爬虫学习记录(3)——用Python获取虾米加心歌曲,并获取MP3下载地址
在第一篇里记录了获取虾米热门歌曲,听了一段时间后,加心了很多歌曲,因此想要批量下载加心过的虾米收藏夹歌曲。虾米好评歌曲页只保存最近的2000首。。之前star过的3k首歌有1k首都不在了。所以起了备份的念头。首先获取虾米个人加心歌曲的地址 虾米的个人好评歌曲页在 http://www.xiami.com/space/lib-song/u/2
2015-08-30 22:23:36 13996 2
原创 Python爬虫学习记录(2)——LDA处理歌词
百度空间关闭了, 本系列文章从 hi.baidu.com/cwyalpha 转移过来想看看某类歌词里哪些词用的比较多。1. 歌词及类别从这里来 http://music.baidu.com/tag 带歌词的歌大约有27k2. 分词用的是jieba in Python3. 去除停用词,去除单个汉字。切记,一定要去除“爱”字。“爱”比“的”还可怕,不去除的话每个to
2015-08-30 22:19:29 9766
原创 Python爬虫学习记录(1)——Xiami全站播放数
本博客转移自 hi.baidu.com/cwyalpha记录了研究生期间从0开始学python的历程。最开始是想听歌,因此去找虾米上播放数比较多的歌,就爬了全站。虾米对爬虫还是比较友好的,大概一晚上能爬完全站的播放数,顺便根据这个做了下精选集。做成精选集了~http://www.xiami.com/song/showcollect/id/274726ht
2015-08-30 22:12:36 26578 3
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人