如何使用python网络爬虫从视频网站上爬取电影数据

最新推荐文章于 2024-06-19 17:27:45 发布

Couchy_wu

最新推荐文章于 2024-06-19 17:27:45 发布

阅读量3.6k

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/qq_41989372/article/details/86559073

版权

.爬虫
把网页上显示的信息下载到本地

网页上显示的信息，是根据html文件的信息决定的
浏览器对你输入的这个链接地址对应的服务器进行请求，
  如果请求成功，服务器会给浏览器一个响应，响应里面就包含html文件

爬虫的目的就是拿到服务器响应里面包含的html文件内容

1.以什么方式可以拿到html内容
1.起始链接
2.代码发起请求，伪装成浏览器
3.接收到这个响应
4.拿到响应里面的html文件内容

2.python爬虫需要用到的基本工具
1.requests
  第三方的包
  pip install requests

2.selenium 自动化测试
  pip install selenium


3.拿到全部的html信息之后，怎么提取我们想要的部分
1.re 正则表达式
2.使用html文件的特性
  标签最简单的，速度慢
3.xpath 节点思想

4.使用标签拿到具体内容
使用第三方的包 beautifulsoup4
pip install beautifulsoup4
  这个包可以把str解析成html的标签
1.使用html格式来解析这个指定的str
doc = BeautifulSoup(response.text, 'html.parser')
2.找出结果中的指定内容，需要用到CSS选择器
  doc = BeautifulSoup(response.text, 'html.parser')
  # print(doc)
  #

最低0.47元/天解锁文章

Couchy_wu

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
如何使用python网络爬虫从视频网站上爬取电影数据

.爬虫把网页上显示的信息下载到本地网页上显示的信息，是根据html文件的信息决定的浏览器对你输入的这个链接地址对应的服务器进行请求，如果请求成功，服务器会给浏览器一个响应，响应里面就包含html文件爬虫的目的就是拿到服务器响应里面包含的html文件内容 1.以什么方式可以拿到html内容 1.起始链接 2.代码发起请求，伪装成浏览器 3.接收到这个响应 4...
复制链接

扫一扫

专栏目录