![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python爬虫
文章平均质量分 58
还是记不住
记录学习
展开
-
爬虫--Scrapy
Scrapy ShellScrapy终端是一个交互终端,我们可以在未启动spider的情况下尝试及调试代码启动Scrapy Shellscrapy shell "https://hr.tencent.com/position.php?&start=0#a"Selectors选择器Scrapy Selectors 内置 XPath 和 CSS Selector 表达式机制Selector有四个基本的方法,最常用的还是xpath: xpath(): 传入xpath表达式,返回该表达式所对原创 2021-12-15 16:51:36 · 403 阅读 · 0 评论 -
Scrapy 框架的基础介绍
Scrapy 框架介绍Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。Scrapy框架:用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。Scrapy 使用了Twisted(其主要对手是Tornado)多线程异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中间件接口,可以灵活的完成各种需求。Scrapy架构图Scrapy主要包括了以下组件: Scrapy原创 2021-12-02 14:08:36 · 184 阅读 · 0 评论 -
爬虫-6.2-验证码破解
验证码破解使用selenium使用打码平台 (推荐)使用机器学习破解打码平台:超级鹰超级鹰网址: https://www.chaojiying.com/注册并登录超级鹰账号查看价格体系下载官方文档和代码chaojiying.py 文件#!/usr/bin/env python# coding:utf-8import requestsfrom hashlib import md5class Chaojiying_Client(object): def __in原创 2021-12-02 14:06:01 · 710 阅读 · 2 评论 -
爬虫-6-selenium和phantomJS&headless
selenium和phantomJS&headless浏览器驱动下载IE11的Webdriver下载: http://dl.pconline.com.cn/download/771640-1.html 链接:https://pan.baidu.com/s/13TTyXGNaG5cpSNdl1k9ksQ 密码:2n9nChrome65.0.3325.146的webdriver驱动下载: 多版本:http://chromedriver.storage.googleapis.com/inde原创 2021-12-02 14:05:05 · 669 阅读 · 0 评论 -
爬虫-5-xpath
XPathXPath即为XML路径语言,它是一种用来确定XML(标准通用标记语言的子集)文档中某部分位置的语言。XPath基于XML的树状结构,有不同类型的节点,包括元素节点,属性节点和文本节点,提供在数据结构树中找寻节点的能力。什么是 XPath?XPath 使用路径表达式在 XML 文档中进行导航XPath 包含一个标准函数库XPath 是 XSLT 中的主要元素XPath 是一个 W3C 标准使用xpathpip install lxmlimport lxmlfrom lxml原创 2021-12-02 14:04:26 · 159 阅读 · 0 评论 -
爬虫-4-bs4
Beautiful Soup 4原创 2021-12-02 14:03:18 · 563 阅读 · 0 评论 -
爬虫-3-requests和代理
Handler处理器 和 自定义Opener (了解)opener是 urllib2.OpenerDirector 的实例,我们之前一直都在使用的urlopen,它是一个特殊的opener(也就是模块帮我们构建好的)。但是基本的urlopen()方法不支持代理IP、cookie等其他的HTTP/HTTPS高级功能。所以要支持这些功能:1、使用相关的Handler处理器来创建特定功能的处理器对象;2、然后通过urllib.request.build_opener()方法使用这些处理器对象,创建自定义原创 2021-12-02 14:02:19 · 332 阅读 · 0 评论 -
爬虫-2-requests
Day02Requests: 让 HTTP 服务人类虽然Python的标准库中 urllib.request 模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests 自称 “HTTP for Humans”,说明使用更简洁方便。requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用:requests 继承了urllib2的所有特性。Requests支持HTTP连接保持和连接池,支持使用cookie保持会话,支持文件上传原创 2021-12-02 13:35:48 · 815 阅读 · 0 评论 -
爬虫-1-基础和urllib
爬虫基础一、爬虫介绍什么是爬虫爬虫:网络爬虫又称为网络蜘蛛,网络蚂蚁,网络机器人等,可以自动化浏览网络中的信息,当然浏览信息的时候需要按照我们的规定的规则进行,这些规则称之为网络爬虫算法,使用python可以很方便的写出爬虫程序,进行互联网信息的自动化检索网 : 互联网蜘蛛网: 互联网理解为蜘蛛网爬虫: 蜘蛛为什么学习爬虫 私人定制一个搜索引擎,并且可以对搜索引擎的数采集工作原理进行更深层次地理解 获取更多的数据源,并且这些数据源可以按我们的目的进行采集,去掉很多无关数据 更好的进行原创 2021-12-02 13:34:54 · 8979 阅读 · 14 评论