爬虫实战
未来影子
曾先后在百度、理想、快手参与研发工作
后端、大数据、NLP学习者
展开
-
ffmpeg安装教程及配置环境
1.下载ffmpeg安装包官网如下:https://ffmpeg.org/download.html原创 2021-10-11 17:54:36 · 4974 阅读 · 0 评论 -
爬虫项目——m3u8后缀的电影
# -*- coding: utf-8 -*-"""Created on Wed Oct 6 10:47:47 2021@author: yingziE-mail:guotaomath@163.com"""'''目标:找到目标网页,源代码中已找到m3u8,且通过抓包工具知道,第一层m3u8嵌套第二层m3u8(真实ts的下载地址),视频无加密''''''流程: 1. 拿到网页源代码 2. 从网页源代码提取第一层m3u8的url 3. 解析第一层的m3u8,原创 2021-10-06 13:42:04 · 920 阅读 · 0 评论 -
爬虫项目——xpath练手(1)
本文爬取目标网址中的电影名,介绍,及评分前期准备:工具:Spyder引用的库:requests,csv,lxml里的 etree1.前期基本处理:url = "https://film.sohu.com/list_4_0_0_0_0_1_60.html?channeled=1200100000"headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML,原创 2021-10-03 20:44:10 · 355 阅读 · 0 评论 -
爬虫项目——BS练手(2)
本文爬取目标网址的图片,原创 2021-10-03 13:44:00 · 287 阅读 · 0 评论 -
爬虫项目——BS4练手(1)
本文爬取目标网页表格中的内容,提取(品名,最高价,最低价,均价)信息,导入csv文件中前期准备:工具:Spyder引用的库:requests,bs4中的BeautifulSoup,csv1.获取目标网址信息url = "http://www.whbsz.com.cn/"resp = requests.get(url)2.解析数据,将页面源代码交给BeautifulSoup进行处理,生成bs对象page = BeautifulSoup(resp.text,"html.parser")原创 2021-10-03 11:55:40 · 463 阅读 · 0 评论