目录
1.首先明确爬虫是什么
爬虫:即网络爬虫,也叫做网络机器人,可以代替人们自动地在互联网中进行数据信息的采集与整理,
大家可以理解为在网络上爬行的一只蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛,如果它遇到自己的猎(所需要的资源),那么它就会将其抓取下来。
2.编写爬虫是我们都需要什么包
re 用于正则表达式
requests http请求
lxml 页面解析
redis 非关系型数据库
过多的我就不介绍了
3.这是一个简单的爬取网页信息的爬虫
import requests #首先导入requests
if __name__=="__main__":
#1.指定url
url="https://cn.bing.com/"
#2.发起请求
Res = requests.get(url=url)
#3.获取相应数据
P_text = Res.text
print(P_text)
#4.持久化存储
with open('./Bing.py','w',encoding='utf-8') as Fp:
Fp.write(P_text)
print("爬取结束??????")