python
kangaroo萧筱
这个作者很懒,什么都没留下…
展开
-
scrapy图片爬取(爬取站长素材中的高清图片)
- ImagesPipeline: -只需要将img的src的属性值进行解析,提交到管道,管道就会对图片的src进行请求发送获取图片的二次请求 -需求:爬取站长素材中的高清图片 -使用流程: -数据解析(图片的地址) -将存储图片地址的item提交到制定的管道类 -在管道文件中自定制个基于ImagesPipeLine的一个管道类 - get_media_request - file_path - item_complet原创 2021-09-15 12:22:30 · 515 阅读 · 0 评论 -
scrapy数据解析操作(爬取糗事百科段子信息)
scrapy的基本使用 scrapy框架的基本使用 -环境的安装: -mac or linux: pip install scrapy -windows: - pip install wheel - pip install scrapy 测试:在终端里录入scrapy指令,没有报错即表示安装成功! -创建一个工程:scrapy startproject XXXPro - cd xxxPro -在spiders子目录中创建一个爬虫文件 -原创 2021-09-14 17:49:14 · 170 阅读 · 0 评论 -
Edge无头浏览器+规避检测
需安装 -msedge-selenium-tools库 -edge浏览器驱动 from selenium import webdriver from time import sleep # 实现无可视化界面 from selenium.webdriver.edge.options import Options # 实现规避检测 from msedge.selenium_tools import EdgeOptions from msedge.selenium_tools import Edge # 实现原创 2021-09-13 19:01:51 · 1532 阅读 · 4 评论 -
selenium基础用法及举例
selenium模块的基本使用 问题:selenium模块和爬虫之间具有怎样的关联? -便捷的获取网站中动态加载的数据 -便捷实现模拟登录 什么是selenium模块? -基于浏览器自动化的一个模块。 selenium使用流程: -环境安装:pip install selenium -下载一个浏览器的驱动程序 -下载路径参考博客:https://blog.csdn.net/VXadmin/article/details/89433821原创 2021-09-13 12:40:17 · 164 阅读 · 0 评论 -
代理IP及代理在爬虫中的应用
代理:破解封IP这种反爬机制。 什么是代理: -代理服务器。代理的作用: -突破自身IP访问的限制。 -隐藏自身真实IP 代理相关的网站: -快代理 -西祠代理 -wwwiw.goubaniia.com 代理ip的类型: - http:应用到http协议对应的url中 - https:应用到https协议对应的url中 代理ip的匿名度: -透明:服务器知道该次请求使用了代理,也知道请求对应的真实ip -匿名:知道使用了代理,不知道真实ip -原创 2021-09-11 10:43:15 · 147 阅读 · 0 评论 -
古诗文登录验证码识别及登录
如图,识别上图验证码,打码工具为超级鹰 以下是识别验证码所需要的函数类codeClass #!/usr/bin/env python # coding:utf-8 import requests from hashlib import md5 class Chaojiying_Client(object): def __init__(self, username, password, soft_id): self.username = username pa.原创 2021-09-10 18:28:22 · 422 阅读 · 0 评论 -
xpath解析基础及相关案例(58二手房信息爬取&&全国城市名称爬取)
xpath解析:最常用且最便捷高效的一种解析方式。通用性。 - xpath解析原理: -1.实例化一个etree的对象,且需要将被解析的页面源码数据加载到该对象中。 -2.调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获。 -环境的安装: -pip install lxml -如何实例化一个etree对象:from lxml import etree -1.将本地的html文档中的源码原创 2021-09-10 16:02:13 · 214 阅读 · 0 评论 -
bs4解析概述及利用bs4爬取三国演义相关章节及内容
bs4解析具体使用讲解 bs4进行数据解析 -数据解析的原理: -1.标签定位 -2.提取标签、标签属性中存储的数据值 - bs4数据解析的原理: -1.实例化一个BeautifulSoup对象,并且将页面源码数据加载到该对象中 -2.通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据提取 -环境安装: - pip install bs4 - pip instal原创 2021-09-09 16:10:34 · 275 阅读 · 0 评论 -
爬虫爬取糗事百科图片数据
如图,爬取所有图片,不包含文字 通过抓包工具可知每一张图片所在div的class=“thumb”,利用正则表达式 ex = '<div class="thumb">.*?<img src="(.*?)" alt.*?</div>' 下面是爬取当前页图片代码 import requests import re import os # 需求:爬取糗事百科中图片版块下所有糗图图片 if __name__ == '__main__': # 创建一个文件夹保存所有图片 .原创 2021-09-08 23:47:14 · 394 阅读 · 0 评论 -
requests实战之药监总局相关数据爬取
爬取第一个页面所对应的第二个页面的信息,两个页面的数据均为Ajax动态加载出来的,同破解百度翻译爬取方法。(url为抓包工具下的Network-XHR,复制该url,post_url同理) import json import requests if __name__ == '__main__': # 获取药监局信息 url = 'http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsList' ..原创 2021-09-08 10:03:09 · 457 阅读 · 0 评论 -
requests实战之破解百度翻译
获取的post_url折腾了我好久,一直都是错误无法正确翻译qwq import requests import json if __name__ == '__main__': post_url = 'https://fanyi.baidu.com/sug' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:87.0) Gecko/20100101 Firefox/87.0'原创 2021-09-07 18:57:20 · 140 阅读 · 0 评论 -
python爬取数据UA伪装策略(反反爬机制)
爬虫能获取到网上的各种信息,那当然就会有很多公司,不想要自己的资源被其他人随随便便的获取。所以,就会有很多平台,会去设置一些反爬虫的手段。 User-Agent:简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等等。 也就是说,假设:一个平台,设置了UA权限,必须以浏览器进行访问 当你使用爬虫脚本去访问该网站的时候,就会出现,访问失败、没有权限、或者没有任何资源返回的结果等错误信息。 比如以下代码,想要直接爬取数原创 2021-09-07 17:20:54 · 1318 阅读 · 0 评论