爬虫
文章平均质量分 61
一个昵称。
我很穷,所以不能买太便宜的东西。
展开
-
day9-scrapy框架
目录什么是 scrap?scrap框架的基本使用 什么是 scrap? 爬虫中封装好的一个明星框架。 功能:高性能的持久化存储,异步的数据下载,高性能的数据解析,分布式 scrap框架的基本使用 环境的安装 mac or Linux: pip install scrap windows pip install wheel 下载twisted:下載地址为http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 安装twisted:pip install Tw原创 2021-04-05 23:46:42 · 216 阅读 · 0 评论 -
day7-使用selenium配合进行爬虫
一、实现无头浏览和规避检查是否使用selenium from selenium import webdriver from selenium.webdriver.chrome.options import Options from selenium.webdriver import ChromeOptions import time #实现无可视化 chrome_options = Options() chrome_options.add_argument('--headless') chrome_opt原创 2021-03-17 23:30:11 · 203 阅读 · 1 评论 -
day8-使用selenium实现自动登录12306
一、前期准备 需要借助的资源 1、需要借助第三方的验证码识别工具进行识别,此处使用超级鹰做演示(http://www.chaojiying.com/) 2、注册超级鹰,购买积分,生成软件id 思路整理 1、使用selenium打开登录界面 2、使用selenium进行截图 3、使用超级鹰获取验证码的坐标信息 4、使用selenium进行自动登录 二、代码如下 from selenium import webdriver from PIL import Image from selenium.webdr原创 2021-03-18 23:27:35 · 178 阅读 · 0 评论 -
day6--高性能的异步爬虫
目的 在爬虫中使用异步实现高性能的数据爬取操作 异步爬虫的方法 多线程,多进程(不建议) 好处:可以为相关阻塞的操作单独开启线程或者进程,阻塞操作就可以异步执行 弊端:无法无限制的开启多线程或者多进程 线程池,进程池(适当使用) 好处:可以降低系统对进程或者线程创建和销毁的一个频率,从而很好的降低系统的开销 弊端:池中线程或者进程的数量是有上限。 实例:爬出梨视频数据 from multiprocessing import Pool import requests from lxml i原创 2021-03-16 22:24:57 · 170 阅读 · 1 评论 -
day5-协程
目录一、什么是协程二、协程的意义三、异步编程 一、什么是协程 协程(coroutine),也可以被称为微线程,是一种用户态内的上下文切换技术,简而言之,其实就是通过一个线程实现代码块相互执行,例如: def func1(): print(1) ... print(2) def func2(): print(3) ... print(4) func1() func2() 实现协程的几种方法 greenlet 早起模块 yield 关键字 asyncio 装饰器(py3.4) async原创 2021-03-16 22:18:05 · 294 阅读 · 2 评论 -
day4--使用cookie访问和代理
需求:爬取人人网当前用户的相关的用户信息(个人主页中显示的用户信息) http/https协议特性:无状态。 没有请求到对应页面数据的原因: 发起的第二次基于个人主页页面请求的时候,服务器端并不知道该此请求是基于登录状态下的请求 cookie:用来让服务器端记录客户端的相关状态。 手动处理:通过抓包工具获取 cookie值,将该值封装到 headers中。(不建议) 自动处理: cookie值的来源是哪里? 模拟登录post请求后,由服务器端创建 session会话对象: 作用: ..原创 2021-03-14 12:30:49 · 200 阅读 · 0 评论 -
day3--数据解析
目录聚焦爬虫:爬取页面中指定的页面内容 聚焦爬虫:爬取页面中指定的页面内容 编码流程: 指定urL 发起请求 获取响应数据 一数据解析 持久化存储 数据解析分类 正则 bs4 xpath (ok) 数据解析原理概述: 解析的局部的文本内容都会在标签之间或者标签对应的属性中进行存储 1、进行指定标签的定位 2、·标签或者标签对应的属性中存储的数据值进行提取(解析) ...原创 2021-03-11 23:27:09 · 126 阅读 · 0 评论 -
day2-requests模块基础
目录requests模块实战编码:实战巩固 requests模块 python中原生的一款基于网络请求的模块,功能非常强大,简单便捷,效率极高 作用:模拟浏览器发请求。 如何使用:( requests模块的编码流程) 指定urL 发起请求 获取响应数据 持久化存储 环境安装: pip install requests 实战编码: 需求:爬取搜狗首页的页面数据 import requests def get_sogou(): #step1 指定URL url = 'https原创 2021-03-09 22:20:02 · 122 阅读 · 0 评论 -
day1-爬虫的基础简介
目录什么是爬虫:爬虫的价值:爬虫究竟是合法还是违法的?爬虫带来的风险可以体现在如下2方面:如何在使用编写爬虫的过程中避免进入局子的厄运呢?爬虫在使用场景中的分类反爬机制反反爬策路robots.txt协议:http协议 什么是爬虫: 通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程。 爬虫的价值: 实际应用 就业 爬虫究竟是合法还是违法的? 在法律中是不被禁止 具有违法风险 善意爬虫 恶意爬虫 爬虫带来的风险可以体现在如下2方面: 爬虫干扰了被访问网站的正常运营 爬虫抓取了收到法律原创 2021-03-07 21:24:39 · 165 阅读 · 0 评论 -
百度爬取图片
import requests import re def getDatas(keyword, pages): """ :param keyword: 要爬取的值 :param pages: 要爬取的页数,每一页的数量是30条 :return: url的列表 """ params = [] for i in range(3...原创 2020-03-17 20:29:42 · 279 阅读 · 0 评论