#课后小结#“爬虫”开始爬不动了,看不懂啊#一爬虫原理#1.什么是互联网?#指的是由一堆网络设备,把一台台的计算机互联网到一起称之为互联网。#2.互联网建立的目的?#互联网建立的目的是为了数据的传递以及数据的共享,#3..上网的全过程:#一普通用户:#打开浏览器一>往目标站点发送请求一>获取响应数据一-> 渲染到浏览器中#-爬虫程序:#模拟浏览器一->往目标站点发送请求一>获取响应数据一>提取有价值的数据一> 持久化到数据中#4. .上网的全过程:#一普通用户:#打开浏览器一>往目标站点发送请求一>获取响应数据一>渲染到浏览器中#-爬虫程序:#模拟浏览器一>往目标站点发送请求一>获取响应数据一>提取有价值的数据一>持久化到数据中#5.浏览器发送的是什么请求?#http协议的请求。#-客户端:#浏览器是一个软件->客户端的IP和端口#一服务端#https : / /www. jd. com/#www.jd. com (京东域名) -> DNS解析->京东服务端的IP和端口#客户端的ip和端口- - - >服务端的 IP和端口发送请求可以建 立链接获取相应数据 。#6.爬虫的全过程#发送请求#获取响应数据 (只要往服务器发送请求,请求通过后会返回响应数据)-解析并提取数据(需要解析库: re、BeautifulSoup4、Xpath...)-保存到本地#(文件处理、数据库、MongoDB存储库)#import requests#response = requests.get(url='http://www.baidu.com/')#response.encoding = 'utf-8'#print(response.text)#with open('baidu.html', 'w', encoding='utf-8')as f:#f.write(response.text)#import requests#response = requests.get('https://video.pearvideo.com/head/20190625/cont-1570107-14056273.mp4')#print(response.content)#with open('视频.mp4', 'wb')as f:#f.write(response.content)
importrequestsimportre
response= requests.get('https://www.pearvideo.com/')print(response.text)
detail_url='https://www.pearvideo.com/video'+v_idprint(detail_url)