我在初学的时候是利用Beautiful soup和正则表达式,配合python,来爬取分析网页,在这过程中学到了很多
首先推荐个博客吧,虫师的,挺不错的
博客地址: http://www.cnblogs.com/fnng/
Windows平台安装Beautiful Soup 安装方法地址
http://kevinkelly.blog.163.com/blog/static/21390809320133185748442/
百度云盘Beautiful soup 下载地址
链接:http://pan.baidu.com/s/1nuuz9uL 密码:g6el
Beautiful Soup 4.2.0 文档,要多看
http://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html
python爬虫之神器正则表达式,这个真的好用。下面是个很好的正则表达式介绍。要多看
http://www.jb51.net/article/57150.htm
http://blog.csdn.net/yueguanghaidao/article/details/11994229