今天我们写一爬取新浪新闻的小项目。
爬取一个数据的时候我们第一步肯定就是要找到这个网址,比如我们去找朋友去玩,首先肯定得知道这个朋友家的地址吧。
http://search.sina.com.cn/
url双手奉上
进入网页按下F12,第一次去朋友家肯定得需要确认一下是不是朋友
如果不是我们就继续找,如果是就是拜访朋友
import requests
response = requests.get(url='http://search.sina.com.cn/')
print(response.text)
打印出来的结果就是网页源代码
然而我们看到的界面是具备搜索功能的
这就需要用到params
当我们输入一个百度的时候
就会看到有个
这个是我们需要找的内容,就需要在代码中加上
name = input("请输入查找的内容:")
params = {
'q': name,
'c': 'news',
'from': 'index'
}
下面是完整的代码。
import requests
name = input("请输入查找的内容:")
params = {
'q': name,
'c': 'news',
'from': 'index'
}
response = requests.get(url='http://search.sina.com.cn/', params=params)
print(response.url)
我们打印的是输入需要查找的内容的url,效果如下:
今天就分享到这里啦。拜拜啦!