import requests if __name__ =='__main__': #UA伪装 headers={ 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2486.0 Safari/537.36Edge/13.10586' }#该User-Agent是edge浏览器的 #指定url url='https://www.sogou.com/web' #封装,将你要搜索的动态的对象封装进入一个字典 kv=input("输入一个搜索的词汇:") param={ 'query':kv }#封装对象的字典 #使用get获取一个数据,也就是返回一个对象 response = requests.get(url=url,params=param,headers=headers) # 获取响应数据 page_text = response.text #持久化存储 filename=kv+'.html' with open(filename,'w',encoding='utf-8') as fp:#filename代表的是衍生的那个文件,后缀必须是.html fp.write(page_text) print("chenggong") #requests进行爬虫的四个步骤 #1.进行UA伪装 #2.指定URL #3.发起请求,并且返回一个对象 #4.获取响应数据 #5.持久化存储
爬虫简易网页爬取器(只是爬取单个网页)
最新推荐文章于 2024-05-02 06:46:49 发布