python
kangaroo萧筱
这个作者很懒,什么都没留下…
展开
-
scrapy图片爬取(爬取站长素材中的高清图片)
- ImagesPipeline: -只需要将img的src的属性值进行解析,提交到管道,管道就会对图片的src进行请求发送获取图片的二次请求-需求:爬取站长素材中的高清图片 -使用流程: -数据解析(图片的地址) -将存储图片地址的item提交到制定的管道类 -在管道文件中自定制个基于ImagesPipeLine的一个管道类 - get_media_request - file_path - item_complet原创 2021-09-15 12:22:30 · 472 阅读 · 0 评论 -
scrapy数据解析操作(爬取糗事百科段子信息)
scrapy的基本使用scrapy框架的基本使用-环境的安装: -mac or linux: pip install scrapy -windows: - pip install wheel - pip install scrapy 测试:在终端里录入scrapy指令,没有报错即表示安装成功!-创建一个工程:scrapy startproject XXXPro- cd xxxPro-在spiders子目录中创建一个爬虫文件 -原创 2021-09-14 17:49:14 · 152 阅读 · 0 评论 -
Edge无头浏览器+规避检测
需安装-msedge-selenium-tools库-edge浏览器驱动from selenium import webdriverfrom time import sleep# 实现无可视化界面from selenium.webdriver.edge.options import Options# 实现规避检测from msedge.selenium_tools import EdgeOptionsfrom msedge.selenium_tools import Edge# 实现原创 2021-09-13 19:01:51 · 1482 阅读 · 4 评论 -
selenium基础用法及举例
selenium模块的基本使用问题:selenium模块和爬虫之间具有怎样的关联? -便捷的获取网站中动态加载的数据 -便捷实现模拟登录什么是selenium模块? -基于浏览器自动化的一个模块。selenium使用流程: -环境安装:pip install selenium -下载一个浏览器的驱动程序 -下载路径参考博客:https://blog.csdn.net/VXadmin/article/details/89433821原创 2021-09-13 12:40:17 · 137 阅读 · 0 评论 -
代理IP及代理在爬虫中的应用
代理:破解封IP这种反爬机制。什么是代理: -代理服务器。代理的作用: -突破自身IP访问的限制。 -隐藏自身真实IP代理相关的网站:-快代理-西祠代理-wwwiw.goubaniia.com代理ip的类型: - http:应用到http协议对应的url中 - https:应用到https协议对应的url中代理ip的匿名度: -透明:服务器知道该次请求使用了代理,也知道请求对应的真实ip -匿名:知道使用了代理,不知道真实ip -原创 2021-09-11 10:43:15 · 117 阅读 · 0 评论 -
古诗文登录验证码识别及登录
如图,识别上图验证码,打码工具为超级鹰以下是识别验证码所需要的函数类codeClass#!/usr/bin/env python# coding:utf-8import requestsfrom hashlib import md5class Chaojiying_Client(object): def __init__(self, username, password, soft_id): self.username = username pa.原创 2021-09-10 18:28:22 · 385 阅读 · 0 评论 -
xpath解析基础及相关案例(58二手房信息爬取&&全国城市名称爬取)
xpath解析:最常用且最便捷高效的一种解析方式。通用性。 - xpath解析原理: -1.实例化一个etree的对象,且需要将被解析的页面源码数据加载到该对象中。 -2.调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获。 -环境的安装: -pip install lxml -如何实例化一个etree对象:from lxml import etree -1.将本地的html文档中的源码原创 2021-09-10 16:02:13 · 186 阅读 · 0 评论 -
bs4解析概述及利用bs4爬取三国演义相关章节及内容
bs4解析具体使用讲解bs4进行数据解析 -数据解析的原理: -1.标签定位 -2.提取标签、标签属性中存储的数据值 - bs4数据解析的原理: -1.实例化一个BeautifulSoup对象,并且将页面源码数据加载到该对象中 -2.通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据提取 -环境安装: - pip install bs4 - pip instal原创 2021-09-09 16:10:34 · 262 阅读 · 0 评论 -
爬虫爬取糗事百科图片数据
如图,爬取所有图片,不包含文字通过抓包工具可知每一张图片所在div的class=“thumb”,利用正则表达式ex = '<div class="thumb">.*?<img src="(.*?)" alt.*?</div>'下面是爬取当前页图片代码import requestsimport reimport os# 需求:爬取糗事百科中图片版块下所有糗图图片if __name__ == '__main__': # 创建一个文件夹保存所有图片 .原创 2021-09-08 23:47:14 · 352 阅读 · 0 评论 -
requests实战之药监总局相关数据爬取
爬取第一个页面所对应的第二个页面的信息,两个页面的数据均为Ajax动态加载出来的,同破解百度翻译爬取方法。(url为抓包工具下的Network-XHR,复制该url,post_url同理)import jsonimport requestsif __name__ == '__main__': # 获取药监局信息 url = 'http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsList' ..原创 2021-09-08 10:03:09 · 423 阅读 · 0 评论 -
requests实战之破解百度翻译
获取的post_url折腾了我好久,一直都是错误无法正确翻译qwqimport requestsimport jsonif __name__ == '__main__': post_url = 'https://fanyi.baidu.com/sug' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:87.0) Gecko/20100101 Firefox/87.0'原创 2021-09-07 18:57:20 · 107 阅读 · 0 评论 -
python爬取数据UA伪装策略(反反爬机制)
爬虫能获取到网上的各种信息,那当然就会有很多公司,不想要自己的资源被其他人随随便便的获取。所以,就会有很多平台,会去设置一些反爬虫的手段。User-Agent:简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等等。也就是说,假设:一个平台,设置了UA权限,必须以浏览器进行访问当你使用爬虫脚本去访问该网站的时候,就会出现,访问失败、没有权限、或者没有任何资源返回的结果等错误信息。比如以下代码,想要直接爬取数原创 2021-09-07 17:20:54 · 1276 阅读 · 0 评论