![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python爬虫
文章平均质量分 92
十先生(公众号:Python知识学堂)
学无止境
展开
-
Python 爬虫进阶篇——Selenium教程(2)
欢迎关注微信公众号:Python知识学堂上次推文简单的介绍了Selenium工具,安装以及连接浏览器等相关操作。本次推文依然介绍Selenium工具的一些用法。上次推文介绍了元素定位的问题,不知道的可以查看之前的文章,这里就不赘述了。一、元素等待如今,绝大部分的Web程序都使用AJAX技术。当页面加载时,该页面中的元素可能会以不同的时间间隔加载。这使定位元素变得困难,如果DOM中尚不存在元素,则定位函数将引发ElementNotVisibleException 异常。必须等待元素加载..原创 2021-10-04 14:59:18 · 394 阅读 · 0 评论 -
Python 爬虫进阶篇——Selenium教程(一)
在之前的推文中介绍了一些爬虫的一些方法,不过这些方法基本上都是基于静态页,然而现实中大部分的页面的都是动态渲染的。requests固然很强大,却无法执行javaScript。一、Selenium简介Selenium最初是一个自动化测试工具,Selenium可以驱动浏览器自动执行自定义好的逻辑代码,即通过代码完全模拟使用浏览器自动访问目标站点并操作,所以也可以用来爬虫。二、安装pip install selenium既然需要使用浏览器模拟,那么自然还需要安装浏览器驱动:Googl..原创 2021-09-02 22:43:44 · 908 阅读 · 1 评论 -
Python 爬虫进阶篇——多线程
本文介绍一下多线程。不过值得注意的是,不能滥用多线程,多线程爬虫请求内容速度过快,可能会导致服务器过载,或者是IP被封禁。为了避免这一问题,我们在使用多线程爬虫的时候需要设置一个delay时间,用于请求同一域名时的最小时间间隔。线程和进程如何工作当程序在运行时,就会创建包含代码和状态的进程。这些进程通过一个或者多个CPU来执行。不过同一时刻每个CPU只会执行一个进程,然后在不同进程之间快速切换,这样就感觉多个程序同时运行。同理,在一个进程中,程序的执行也是在不同线程间进行切换的,每个线程执行程序..原创 2021-07-21 23:43:38 · 464 阅读 · 0 评论 -
Python 爬虫进阶篇——diskcahce缓存(二)
上一篇文章跟大家介绍了一下diskcache的基础用法,本次推文带大家了解一下关于diskcache更深入的东西。关于diskcachediskcache缓存对象管理是基于SQLite数据库,它是一个轻量级的基于磁盘的数据库,该数据库不需要单独的服务器进程,并允许使用SQL查询。大家如果注意到,上篇推文中的源码截图上有一些sql的语句。FanoutCache 分片diskcache可使用diskcache.FanoutCache 自动分片基础数据库。分片是对数据进行水平分区。可用于减少阻..原创 2021-07-02 23:01:14 · 952 阅读 · 1 评论 -
Python 爬虫进阶篇——diskcache缓存
在之前的python爬虫系列中介绍了几种爬取网页内容的方法以及request模块的相关内容,本次推文给大家介绍缓存相关的内容,选择的是diskcache即基于磁盘的缓存。一、简介DiskCache是Apache2许可的磁盘和文件支持的缓存库,用纯Python编写。当进程使用内存时,磁盘上会留下千兆字节的空余空间。这些进程中有用Memcached(有时是Redis)作缓存。DiskCache有效地将空余的磁盘空间用于缓存。二、安装安装很简单pip install disk...原创 2021-06-24 22:58:49 · 2358 阅读 · 2 评论 -
Python 爬虫基础入门篇——Requests模块
前几次文章介绍了页面爬取的三种用法,并且也使用到Requests模块,但是没有详细的讲解,本次推文专门带大家了解一下Requests模块。一、模块简介Requests是使用Apache2 licensed 许可证的HTTP库;是一个基于Python开的Http库,其在Python内置模块的基础上进行了高度的封装,从而我们在使用Http请求的时候变得非常的简单;比urllib2模块更简洁好用;二、安装安装很简单pip install requests三、请求类型...原创 2021-03-26 23:29:49 · 280 阅读 · 1 评论 -
Python爬虫基础教程——lxml爬取入门
大家好,上次介绍了BeautifulSoup爬虫入门,本篇内容是介绍lxml模块相关教程,主要为Xpath与lxml.cssselect 的基本使用。一、lxml介绍引用官方的解释:lxml XML工具箱是C库libxml2和libxslt的Python绑定 。它的独特之处在于它将这些库的速度和XML功能的完整性与本机Python API的简单性结合在一起,该Python API大多数都兼容,但优于著名的 ElementTree API。lxml.etree是一个非常快速的XML库。这主要..原创 2021-03-11 22:52:01 · 1989 阅读 · 1 评论 -
Python 爬虫基础教程——BeautifulSoup抓取入门(2)
大家好,上篇推文介绍了BeautifulSoup抓取的一些基础用法,本篇内容主要是介绍BeautifulSoup模块的文档树使用以及实例。一、遍历文档树直接看代码吧from bs4 import BeautifulSouphtml='<html> <head> <meta content="text/html;charset=utf-8" http-equiv="content-type"/> <meta content="IE=Edg...原创 2021-03-04 22:53:44 · 380 阅读 · 1 评论 -
Python 爬虫基础教程——BeautifulSoup抓取入门(1)
大家好,上篇推文介绍了爬虫方面需要注意的地方、使用vscode开发环境的时候会遇到的问题以及使用正则表达式的方式爬取页面信息,本篇内容主要是介绍BeautifulSoup模块的使用教程。一、BeautifulSoup介紹引用官方的解释:Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.简单来说Beautiful Soup是python的一个库,是一个可以从网页抓取数据的利器。官方..原创 2021-02-24 22:35:14 · 632 阅读 · 1 评论 -
Python爬虫基础教程——正则表达式抓取入门
大家好!本篇文章主要讲述爬虫一些需要注意的地方、开发环境以及使用正则表达来抓取网站上的信息等。一、简单介绍网络爬虫简单的解释就是从网站上获取相关的信息为已所用的一个自动化处理的方式;1.1 合法性虽然在2017年就已经开始实施《网络安全法》,但是也没有特别明确爬取公开信息的行为是否违法。小编搜索了一下资料,自己总结了两点:爬取的数据非盈利使用,只要你没有非常大的获取利润、只要你的采集没有涉及到敏感的信息,一般来说就没有关系 爬虫的程序不能使其网站瘫痪,不能一味的追求爬虫的速度,..原创 2021-01-27 22:56:15 · 595 阅读 · 1 评论