最近笔者忙着考研,高数搞得头大。想着写点程序放松下自己。
我自己最近在自学python ,感觉爬虫挺有意思。
当然,爬下网页还需要数据处理。这个我会在以后的文章中讲到。今天讲的是关于requests爬取网页。
首先大家需要安装 requests 库
如下:
pip installl requests
然后我们在requestsDemo.py 写如下代码:
#coding:utf-8
#导入requests库
import requests
#定义方法 用来爬去网页
def spiderDemo(url):
headers = {
'User-Agent':'Mozilla/5.0(compatible;MSIE 9.0;Windows NT 6.1; Trident/5.0',
'Accept-language':'zh-CN,zh;q=0.8'
}
#发送请求并返回
response = requests.get(url,headers=headers)
#得到一个html 网页
html = response.text
return html
if __name__==('__main__'):
url = raw_input('请输入你想怕爬取的url')
html = spiderDemo(url)
print html
#大家可以运行python requestsDemo.py
输入一个网址 就可以成功抓取页面的内容