cwyalpha-CSDN博客

原创 Python爬虫学习记录（0）——Python 爬虫抓站记录（虾米，百度，豆瓣，新浪微博）

python 下用到的库，urllib, urllib2, BeautifulSoup, cookielib, mechanize, re看Firebug模拟浏览器行为。1. 虾米虾米不用登陆，没有IP限制，最简单。Python抓了下Xiami电台的试听数里用的是import urllib2content = urllib2.urlopen('ht

2015-08-30 22:33:19 14216

原创 Python爬虫学习记录（5）——python mongodb + 爬虫 + web.py 的acfun视频排行榜

最早这个代码是写给所里那个863项目的，想自动下载热门视频，推送到高校的人民日报的电子板上，后来因为视频内容太和谐作罢，改成推荐优酷土豆的视频code:http://pan.baidu.com/share/link?shareid=72883403&uk=1006940630鉴于trend.avfun坏了。。做个avfun视频排行。希望avfun别老改界面~。~

2015-08-30 22:30:42 6149

原创 Python爬虫学习记录（3）——用Python获取虾米加心歌曲，并获取MP3下载地址

在第一篇里记录了获取虾米热门歌曲，听了一段时间后，加心了很多歌曲，因此想要批量下载加心过的虾米收藏夹歌曲。虾米好评歌曲页只保存最近的2000首。。之前star过的3k首歌有1k首都不在了。所以起了备份的念头。首先获取虾米个人加心歌曲的地址虾米的个人好评歌曲页在 http://www.xiami.com/space/lib-song/u/2

2015-08-30 22:23:36 13996 2

原创 Python爬虫学习记录（2）——LDA处理歌词

百度空间关闭了，本系列文章从 hi.baidu.com/cwyalpha 转移过来想看看某类歌词里哪些词用的比较多。1. 歌词及类别从这里来 http://music.baidu.com/tag 带歌词的歌大约有27k2. 分词用的是jieba in Python3. 去除停用词，去除单个汉字。切记，一定要去除“爱”字。“爱”比“的”还可怕，不去除的话每个to

2015-08-30 22:19:29 9766

原创 Python爬虫学习记录（1）——Xiami全站播放数

本博客转移自 hi.baidu.com/cwyalpha记录了研究生期间从0开始学python的历程。最开始是想听歌，因此去找虾米上播放数比较多的歌，就爬了全站。虾米对爬虫还是比较友好的，大概一晚上能爬完全站的播放数，顺便根据这个做了下精选集。做成精选集了~http://www.xiami.com/song/showcollect/id/274726ht

2015-08-30 22:12:36 26578 3

sjtu c++ 课件（2）

下学期的，2008.仍未讲完。。。

2008-04-10

sjtu c++ 课件（1）

上学期，2007年的。