如何使用python网络爬虫从视频网站上爬取电影数据

.爬虫
 把网页上显示的信息下载到本地
 
 网页上显示的信息,是根据html文件的信息决定的
 浏览器对你输入的这个链接地址对应的服务器进行请求,
  如果请求成功,服务器会给浏览器一个响应,响应里面就包含html文件
 
 爬虫的目的就是拿到服务器响应里面包含的html文件内容
 
1.以什么方式可以拿到html内容
 1.起始链接
 2.代码发起请求,伪装成浏览器
 3.接收到这个响应
 4.拿到响应里面的html文件内容
 
2.python爬虫需要用到的基本工具
 1.requests
  第三方的包
  pip install requests
 
 2.selenium 自动化测试
  pip install selenium
  
 
 
3.拿到全部的html信息之后,怎么提取我们想要的部分
 1.re 正则表达式
 2.使用html文件的特性
  标签 最简单的,速度慢
 3.xpath 节点思想

 

4.使用标签拿到具体内容
 使用第三方的包 beautifulsoup4
 pip install beautifulsoup4
  这个包可以把str解析成html的标签
 1.使用html格式来解析这个指定的str
 doc = BeautifulSoup(response.text, 'html.parser')
 2.找出结果中的指定内容,需要用到CSS选择器
  doc = BeautifulSoup(response.text, 'html.parser')
  # print(doc)
  #

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值