1. 爬虫设计的技术
1)数据获取,通过http获取网站的数据,如urllib,urllib2,requests等模块;
2)数据提取,将web站点所获取的数据进行处理,获取所需要的数据,常使用的技术有:正则re,BeautifulSoup,xpath;
3)数据存储,将获取的数据有效的存储,常见的存储方式包括:文件file,csv文件,Excel,MongoDB数据库,MySQL数据库
2. 环境信息
1)python2.7
2)mongo2.6
3)使用模块包括re,requests,lxml,pymongo
3. 代码内容
1 #!/usr/bin/python
2 #-*- coding:utf8 -*-
3 #author: HappyLau,blog:http://www.cnblogs.com/cloudlab/
4 #目的:爬取豆瓣top250的音乐信息,将爬取的数据存入到MongoDB数据库中
5
6 importre7 importsys8 importrequests9 importpymongo10 from time importsleep11 from lxml importetree12
13 reload(sys)14 sys.setdefaultencoding('utf8')15
16
17 defget_web_html(url):18 '''
19 @params: url 通过requests获取web站点的HTML源代码数据,并返回20 '