Python实战
文章平均质量分 90
记录使用Python进行开发的经验
何壹时
Java开发
展开
-
Python爬虫深造篇(四)——Scrapy爬虫框架启动一个真正的项目
一、前情提要经过前面的学习,我们初识了 Scrapy 框架,通过 Scrapy 提供的互动工具,我们在命令行中体验了 Scrapy 中的 CSS 选择器最重要的几个点是:. 代表 class,# 代表 id,比如 div.book 代表 class 包含 book 的 div 元素,div#book 代表 id 为 book 的 div 元素。在有层级关系时,用 > 号连接直接下一级的元素,用空格连接所有下级的元素。这篇文章将带大家将走进 Scrapy,学习如何启动一个真正意义上的 S原创 2021-11-08 13:47:25 · 3057 阅读 · 7 评论 -
Python爬虫深造篇(三)——Scrapy爬虫框架精文
一、前情提要为什么要使用Scrapy 框架?经过前面的学习,我们基本掌握了分析页面、分析动态请求、抓取内容,也学会使用多线程来并发爬取网页提高效率。这些技能点已经足够我们写出各式各样符合我们要求的爬虫了。但我们还有一个没解决的问题,那就是工程化。工程化可以让我们写代码的过程从「想一段写一段」中解脱出来,变得有秩序、风格统一、不写重复的东西。而Scrapy 就是爬虫框架中的佼佼者。它为我们提前想好了很多步骤和要处理的边边角角的问题,而使用者可以专心于处理解析页面、分析请求这种最核心的事情。二原创 2021-10-19 13:59:50 · 664 阅读 · 12 评论 -
Python爬虫深造篇(二)——多线程爬取网页项目实战
上一篇文章介绍了并发和多线程的概念,这次就来向大家上一个实战来讲解一下如何真正的运用上多线程这个概念。有需要的可以看看我之前这篇文章:Python爬虫深造篇(一)——并发网页爬取文章目录一、网页分析二、代码实现一、网页分析这次我们选择爬取的网站是水木社区的Python页面网页:https://www.mysmth.net/nForum/#!board/Python?p=1根据惯例,我们第一步还是分析一下页面结构和翻页时的请求。通过前三页的链接分析后得知,每一页链接中最后的参数是页数,.原创 2021-10-17 21:27:29 · 1967 阅读 · 14 评论 -
Python爬虫深造篇(一)——多线程网页爬取
一、前情提要相信来看这篇深造爬虫文章的同学,大部分已经对爬虫有不错的了解了,也在之前已经写过不少爬虫了,但我猜爬取的数据量都较小,因此没有过多的关注爬虫的爬取效率。这里我想问问当我们要爬取的数据量为几十万甚至上百万时,我们会不会需要要等几天才能将数据全都爬取完毕呢?唯一的办法就是让爬虫可以 7×24 小时不间断工作。因此我们能做的就是多叫几个爬虫一起来爬数据,这样便可大大提升爬虫的效率。但在介绍Python 如何让多个爬虫一起爬取数据之前,我想先为大家介绍一个概念——并发。文章目录一、前原创 2021-10-17 20:11:35 · 5611 阅读 · 9 评论 -
《Python爬取求职网第三天》——反爬虫和汇总表格
一、反爬虫1、反爬虫介绍反爬虫是网站限制爬虫的一种策略。它并不是禁止爬虫(完全禁止爬虫几乎不可能,也可能误伤正常用户),而是限制爬虫,让爬虫在网站可接受的范围内爬取数据,不至于导致网站瘫痪无法运行。具体网站有哪些反爬虫措施参考文章:关于反爬虫,看这一篇就够了2、爬取计划A:请求头(Request Headers)我们通过qq音乐官网为例来讲下,其中一个反爬虫的措施请求头。打开qq音乐官网,按键盘上的F12打开开发者工具,点击Network标签,然后在Name列下随便点击一个打开在Reques原创 2021-04-26 00:31:49 · 1171 阅读 · 5 评论 -
《Python爬取求职网第二天》——requests库和BeautifulSoup库
一、requests库1、requests简介requests库就是一个发起请求的第三方库,requests允许你发送HTTP/1.1 请求,你不需要手动为 URL 添加查询字串,也不需要对 POST 数据进行表单编码。Keep-alive 和 HTTP 连接池的功能是 100% 自动化的,一切动力都来自于根植在 requests 内部的 urllib3。简单来说有了这个库,我们就能轻而易举向对应的网站发起请求,从而对网页数据进行获取,还可以获取服务器返回的响应内容和状态码。2、安装requests库原创 2021-04-24 14:24:16 · 1600 阅读 · 13 评论 -
《Python爬取求职网最后一天》——爬取51job网
用Python爬取51job网话不多说我们先上代码,代码作用是爬取51job网,并把数据存储到汇总到表格中代码↓from bs4 import BeautifulSoupimport csvfrom selenium import webdriverimport timeimport re#获取并解析网页源代码,根据标签查询目的文本def getsave_infomation(browser,csv_writer): soup = BeautifulSoup(brows原创 2021-04-26 21:41:14 · 1598 阅读 · 2 评论 -
《Python爬取求职网第一天》——浏览器自动化测试框架Selenium
Python浏览器自动化测试框架Selenium1、Selenium介绍简单来说吧,Selenium可以控制你的浏览器,模仿人浏览网页,从而获取数据,自动操作等,也正因为能自动打开浏览器,不需要判断网页是静态还是动态的,数据加载的方式等等,所以比其他方法获取网页数据要简单得多。记住强大之处就好,缺点嘛就不说了…2、安装Seleniumpip install seleniumselenium还需要安装相应浏览器的驱动才能控制浏览器,我以谷歌浏览器为例(建议大家使用谷歌)说下如何在浏览器中安装先原创 2021-04-22 18:38:47 · 577 阅读 · 0 评论