![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python爬虫
小何才露尖尖角
任何时候,我对世界总有一个主观的先验判断,但是这个判断会随着世界的真实变化而随机修正,我对世界永远保持开放的态度--Thomas Bayes
展开
-
linux下安装 Chrome 和 chromedriver 以及 selenium webdriver 使用
https://googlechromelabs.github.io/chrome-for-testing/ (推荐,包含最新稳定版)现在就可以使用 selenium 的 webdriver 爬取内容了。chromedriver对应下载地址。原创 2023-10-25 17:04:33 · 5596 阅读 · 0 评论 -
xpath提取文本时忽略空格换行符
p是一个Selector对象,现在需要提取其中的文本,p.xpath(‘.//text()’) 提取时需要忽略文本中的空格换行符。原创 2023-08-04 16:20:42 · 864 阅读 · 0 评论 -
moviepy用VideoFileClip加载视频时报UnicodeDecodeError: utf-8 codec cant decode byte invalid start byte错误
原文:使用moviepy用:clip1 = VideoFileClip(‘F:\video\3.mp4’)加载视频时报错,如下:Traceback (most recent call last):File “<pyshell#3>”, line 1, inclip1 = VideoFileClip(‘F:\video\3.mp4’)File “C:\Program Files\Python37\lib\site-packages\moviepy\video\io\VideoFileC转载 2021-04-22 20:01:36 · 1075 阅读 · 1 评论 -
爬虫相关-内容解析
使用解析库 beautfulsoup 将 战争, 纪录片 内容提取出来<p><span class="pl">类型:</span> 战争, 纪录片</p>#方式1test = """<p><span class="pl">类型:</span> 战争, 纪录片</p>""" so = soup(test, 'lxml') p =原创 2020-10-16 10:30:20 · 88 阅读 · 0 评论 -
Python3爬虫系列(2)-请求库与解析库的安装
1请求库的安装爬虫可以简单分为几步:抓取页面、分析页面和存储数据1.1requests、selenium库的安装在抓取页面过程中,我们需要模拟浏览器向服务器发出请求,所以需要用到一些Python库来实现HTTP请求操作。用到的第三方库有requests、Selenium和aiohttp等。建议通过pip这个包管理工具安装第三方库。在安装requests、selenium之前需要安装...原创 2019-01-18 11:04:07 · 397 阅读 · 3 评论 -
Python3爬虫系列(1)-Python环境搭建
1. 安装Python安装Python有两种方式,一种是直接下载Python进行安装;另一种是下载Anaconda安装,会自动安装Python同时还会安装Python常用的其他包,省去了后续安装常用包的过程。推荐用anaconda安装Python。下载地址:https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/ 清华镜像网站。Anaco...原创 2019-01-16 20:44:47 · 178 阅读 · 0 评论