懂网络的都知道,爬虫就是发请求,等到服务器相应,然后把相应的数据解析存入到本地。好简单哦! 捂脸。可是你是否听过,隔行如隔山,一个bug难死人。你知道怎么发请求嘛,你知道怎么提取数据吗,你又知道怎么写入本地或者数据库嘛。把自己这次做的项目的感想,在这里简单的说一下。让我做爬虫,哇,好难啊,没做过,不会,怎么没办,这些都不知道事。首先我们就是发请求,怎么发,Python中使用的包有http.client,urllib2,request等,建议不要纠结选哪一个,都一样,都是分装的底层而已,不过Python分版本2和版本3,我建议大家选择高版本的,至于为什么吗,还不是越高越简单嘛,好学,哈哈。下面就简单说说怎么怕百度首页吧
# 第一步,导入要使用的库
import urllib2
# 第二步,百度的url
url = 'https://www.baidu.com/'
# 第三步,发送请求
response = urllib2.urlopen(url)
# read()读取返回的字符串数据
str_data = response.read()
# 打印
print str_data