![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
网络爬虫
Mrxiaohuang
小小程序员,有着大梦想
展开
-
爬虫破解图像验证
1 下载模块pip install ddddocr2准备图片3编写代码进行识别#导入模块import ddddocr#实例化模块ocr=ddddocr.DdddOcr()# 文件处理打开文件进行赋值with open(r'D:\Users\Downloads\bd168678d82ff9837498a40ef0e611a7.jpeg', 'rb') as f: img_bytes=f.read()调用函数对图片进行识别 res=ocr.classification(img_原创 2021-11-18 17:38:17 · 355 阅读 · 0 评论 -
某猫电影 css 加密解决方案
1首先我们需要查看网页信息2查看网页代码发现字体加密3找到字体加密文件的链接请求链接获取到woff文件4直接上代码解释请求模块import requests字体读取模块from fontTools.ttLib import TTFont创建电影类class My(): def __init__(self): self.woff_url = 'https://vfile.meituan.net/colorstone/f0a30a4dda64b4f8f34485原创 2021-03-21 09:02:37 · 808 阅读 · 0 评论 -
selenum爬虫经验汇总
1 设置无界面访问谷歌浏览器opt = webdriver.ChromeOptions()# 把chrome设置成无界面模式,不论windows还是linux都可以,自动适配对应参数opt.set_headless()# 创建chrome无界面对象opt.add_argument("--start-maximized") # 界面设置最大化# opt.add_argument('no-sandbox')opt.add_argument('--headless') #设置无界面模式opt.a原创 2021-03-14 11:42:22 · 99 阅读 · 0 评论 -
python+selenium+Chrome Options
Chrome Options常用的行为一般有以下几种:禁止图片和视频的加载:提升网页加载速度。添加代理:用于翻墙访问某些页面,或者应对IP访问频率限制的反爬技术。使用移动头:访问移动端的站点,一般这种站点的反爬技术比较薄弱。添加扩展:像正常使用浏览器一样的功能。设置编码:应对中文站,防止乱码。阻止JavaScript执行Chrome Options是一个配置chrome启动时属性的类,通过这个参数我们可以为Chrome添加如下参数:设置 chrome 二进制文件位置 (binary_loc转载 2021-03-11 18:29:57 · 271 阅读 · 0 评论 -
RuntimeError: Session is closed
解决方案:1首先需要查看是否有没有被调用的变量,如果有则将变量进行调整调用。2 有可能是代码的缩进问题,建议每次运行前对代码进行ctrl + Alt + L 进行代码格式化原创 2021-03-09 11:15:16 · 1074 阅读 · 0 评论 -
aiohttp.client_exceptions.InvalidURL: %E5%9B%BE%E7%89%87%E9%93%BE%E6%8E%A5
解决方案:引起原因是没有注意rul_list的数据类型 ,重点注意url_list是字典类型的数据原创 2021-03-09 11:13:38 · 1967 阅读 · 0 评论 -
猿人学第一题解题思路及详细代码流程
1目标网站:http://match.yuanrenxue.com/match/12 跳过beg3点击换页:发现加密参数4点击看卡网页源代码5搜索加密参数在这个script标签中6 找到加密的关键代码request=function(){var timestamp=Date.parse(new Date()) + 100000000;var m=oo0O0(timestamp.toString())+window.f;var list={"page":window.page,"m原创 2021-03-06 21:09:55 · 636 阅读 · 0 评论 -
代理ip的设置配合requests库实现爬虫
实例网站:猿人云糗事百科ip的获取获取提取api地址下面是代码的详解请求模块import requests解析模块from lxml import etree日志模块from loguru import logger存储模块from pymongo import MongoClient获取代理def proxiy(): logger.info("正在设置代理") response=requests.get("http://tunnel-api.apeyu原创 2021-03-04 20:12:23 · 184 阅读 · 1 评论 -
js加密css加密base64加密翻译的思想和操作
JS加密破解思路破解js加密的的方法1找到那些参数在影响数据的获取 需要做不同的请求,对比参数,找出不同的参数即可2找到参数之后,需要查找这些参数是从哪里获得的、生成的原理是什么? (1)找到参数可能是通过之前的一些请求传递过来的 (2)参数实在某个js文件生成的-->z找到对应的js文件,分析js代码,得到参数的生成原理在无法自己翻译破解的前提下:进行破解在无法翻译的情况下: (1)创建js 文件将js函数放入其中 (2) 下载模块 p原创 2020-11-18 16:10:01 · 308 阅读 · 0 评论 -
爬虫之redis数据库
Redis数据库一、简介redis数据库是一个基于内存存储的数据库,所以,redis数据库的访问速度特别快,因此,redis通常被用于做缓存系统,但是,做缓存对于redis来说有点大材小用,redis数据库一般分布式集群,可以提高网站的响应速度。redis数据库的数据存储是通过key-value的形式进行的。二、redis数据库的优点:1.redis数据库是完全开源免费的。2.redis数据库支持多种数据结构,比如:字符串、列表、哈希表、集合(有序集合,无序集合)3.支持原子操作、支持事务。4原创 2020-11-04 10:18:11 · 324 阅读 · 0 评论 -
爬虫之selenium自动化爬取
准备工具1谷歌浏览器驱动器,PhantomJS2 selenium模块的下载pip install selenium代码# 1. 导入webdriverimport timefrom selenium import webdriverfrom selenium.webdriver.common.keys import Keys# 2. 调用浏览器driver = webdriver.PhantomJS(executable_path=r'D:\phantomjs-2.1.1-wind原创 2020-11-02 21:54:29 · 333 阅读 · 0 评论 -
爬虫之scrapy框架
基础操作1安装scrapy:pip install scrapy2创建scrapy:scrapy startproject 项目名称3创建爬虫文件:scrapy genspider 爬虫名 爬取网站名4运行scrapy项目:scrapy crawl 爬虫名注意事项在scrapy项目创建完成之后,一定要到setting.py文件中ROBOTSTXT_OBEY由True改为Falsescrapy实例图scrapy框架结构settings里的参数说明# -*- coding: utf-8原创 2020-11-02 21:34:39 · 134 阅读 · 0 评论 -
模拟登录与代理设置
cookie和session的区别:1存储位置不同: cookie保存在本地,客户端浏览器上 session保存在服务器上2存储容量不同: 每一个cookie保存的数据不超过4kb,并且一个站点最多保存20个cookie session没有容量上限,但是session保存在服务器上,如果session过多,服务器的压力就会过大,处于对服务器性能的闲置太多3安全性不同 cookie存在浏览器上,对客户端来说是可见,容易被篡改,安全性较低 session存在原创 2020-10-21 22:44:35 · 187 阅读 · 0 评论 -
网络爬虫基础知识学习
爬虫爬虫的定义:网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。爬虫的分类:通用爬虫 :搜索引擎抓取系统的重要组成部分通用爬虫的局限性:通用搜索引擎所返回的结果都是网页,而大多情况下,网页里 90%的内容对用户来说都是无用的。不同领域、不同背景的用户往往具有不同的检索目的和需求,搜索引擎无法提供针对具体某个用户的搜索结果。万维网数据形式的丰富和网络技术的不断发展,图片、数据库、音频、视频多媒体等不同数据大量出现,通用搜索引擎对这些文件无能为力,不能很好地发现和原创 2020-10-20 18:27:52 · 1372 阅读 · 0 评论 -
爬取百度暗影精灵5贴吧
导入模块import requests,os定义函数编写参数def get_page(Kw,pn,filename) params={ 'ie':utf-8, 'Kw':'kw', 'pn':'pn', }base_url='https://tieba.baidu.com/f?ie=utf-8&kw=%E6%9A%97%E5%BD%B1%E7%B2%BE%E7%81%B55&fr=search' 发送请求获取响应原创 2020-10-19 15:56:27 · 153 阅读 · 0 评论