Python
文章平均质量分 71
初学爱好者
努力!
展开
-
常见的反爬手段和解决思路
1、服务器反爬的原因爬虫占总PV(PV是指页面的访问次数,每打开或刷新一次页面,就算做一个PV)比较高,浪费资源(尤其是三月份爬虫)。公司可免费查询的资源被批量抓走,丧失竞争力。法律的灰色地带,状告爬虫成功的几率小。爬虫在国内还是个擦边球,就是有可能可以起诉成功,也可能完全失效,所以还是需要用技术手段来做最后的保障。2、服务器常反什么样的爬虫应届毕业生应届毕业生的爬虫通常简单粗暴,根本不管服务器压力,加上人数不可预测,很容易把站点弄挂。创业小公司现在的创业公司越来越多,觉得大数据原创 2020-10-29 19:33:55 · 786 阅读 · 0 评论 -
Scrapy中间件的使用
下载中间件(MiddleproDownloaderMiddleware)位置:引擎和下载器之间作用:批量拦截到整个工程中所有的请求和响应拦截请求:UA伪装IP代理拦截响应:篡改响应数据、响应请求[middlewares.py] MiddleproDownloaderMiddleware类中有3个重要方法import randomfrom fake_useragent import UserAgentclass MiddleproDownloaderMiddleware原创 2020-10-20 15:33:02 · 315 阅读 · 0 评论 -
Scrapy—ImagesPipeline
图片数据爬取之ImagesPipeline基于scrapy爬取字符串类型的数据和爬取图片类型的数据的区别?字符串:只需要基于xpath进行解析且提交管道进行持久化存储图片:xpath解析出图片src的属性值。单独的对图片地址发起请求获取图片二进制类型的数据ImagesPipeline:需要将img的src的属性值进行解析,提交到管道,管道就会对图片的src进行请求发送获取图片的二进制类型的数据,且还会进行持久化存储需求:爬取站长素材中的高清图片网页中的图片使用了懒加载方式,原创 2020-10-19 21:21:35 · 1254 阅读 · 5 评论 -
Scrapy框架补充
scrapy数据解析scrapy持久化存储基于终端指令:指令:scrapy crawl (爬虫文件名) -o (filepath/filename.filetype)例如:scrapy crwal qiushi_spider -o ./qiushibaike.json要求:只可以将parse方法的返回值存储到本地文本文件中注意:持久化存储对应的文本文件的类型只可以为:json、jsonlines、jl、csv、xml、marshal、pickle好处:简洁高效便捷缺原创 2020-10-19 18:08:02 · 312 阅读 · 2 评论 -
用selenium对12306模拟登录
一、超级鹰的使用https://www.chaojiying.com/注册:普通用户登录:普通用户题分查询:充值(1块=1000题分)进入用户中心 -> 软件ID -> 生成一个软件ID下载示例代码 :开发文档 -> 根据对应的开发语言选择下载,这里我选择的是python -> 进入点击下载,保存到本地解压 -> 解压出来的有一张图片 a.jpg,示例代码 chaojiying.py在 pychram中新建一个测试模块,将ch原创 2020-10-18 23:01:09 · 412 阅读 · 0 评论 -
谷歌无头浏览器与反检测
谷歌无头浏览器由于PhantomJs已经停止了更新和维护,所以推荐使用谷歌无头浏览器,是一款无界面的谷歌浏览器from selenium import webdriverfrom time import sleepfrom selenium.webdriver.chrome.options import Options""" 实现无可视化界面的操作 """chrome_options = Options()chrome_options.add_argument('--headless')c原创 2020-10-18 22:58:07 · 1081 阅读 · 1 评论 -
selenium模块的基本使用
问题:selenium模块和爬虫之间具有怎样的关联?便捷的获取网站中动态加载的数据便捷实现模拟登录什么是selenium模块?基于浏览器自动化的一个模块。selenium使用流程:环境安装: pip install selenium下载一个浏览器的驱动程序(谷歌浏览器)下载路径: http://chromedriver.storage.googleapis.com/index.html驱动程序和浏览器的映射关系:http://blog.csdn.net/huilan_sa原创 2020-10-18 22:55:32 · 462 阅读 · 1 评论 -
Python爬虫实战—vmgrils图片网站
一、实战背景唯美女生:https://www.vmgirls.com/少女情怀总是诗,一双发现美的眼睛!工具:Python3.7,PyCharm程序所需用到的模块:requests,fake_useragent,parsel,os,time所使用的解析器:xpath二、明确目标明确我们需要爬取哪个图片集的图片资源,这里以少女情怀总是诗为例。2.1 分析我们需要爬取的图片链接地址按F12打开开发者工具这里可以看见,选择 a 标签中的 href 属性或者 img 标签中的 src 属性都是原创 2020-10-10 09:30:06 · 6042 阅读 · 3 评论 -
Python爬虫实战—笔趣看小说网
一、实战背景笔趣看小说网站:https://www.biqukan.com/本站所有小说为转载作品,所有章节均由网友上传,转载至本站只是为了宣传本书让更多读者欣赏。工具:Python3.7,PyCharm程序所需用到的模块:requests,fake_useragent,parsel,docx,time所使用的解析器:xpath二、明确目标明确我们需要爬取哪部小说。这里我以《斗破苍穹》为例。2.1 分析我们需要爬取的数据作者、分类、状态、字数、更新时间和简介文章从正文卷开始,获取每一原创 2020-10-09 22:32:59 · 1211 阅读 · 1 评论 -
DRF开发RESTful API接口
上一篇:[https://blog.csdn.net/qq_43401941/article/details/108962767])(https://blog.csdn.net/qq_43401941/article/details/108962767)DRF的认证和权限九、认证方式的介绍用户名和密码认证(BasicAuthentication)【用于测试工作,尽量不要用于生产环境】Session认证(SessionAuthentication)Token认证(TokenAuthenticati原创 2020-10-08 14:31:57 · 675 阅读 · 0 评论 -
Django REST Framework入门学习
Django REST Framework导学学习目标:使用DRF开发RESTful API接口学习内容:序列化(serializers)、视图集(viewsets)、路由(routers)、认证(authentication)、认证(permission)学习效果:DRF的多种视图实现课程信息的增删改查一、创建项目1.1 创建Django项目1.2 修改 settings.py配置文件ALLOWED_HOSTS = ["*"]LANGUAGE_CODE = 'zh-hans'原创 2020-10-08 14:27:27 · 1109 阅读 · 1 评论 -
关于创建 Scrapy框架时,项目中没有虚拟环境的问题
在我们创建好 Scrapy项目发现 pychram的终端控制台中没有虚拟环境(venv)没有虚拟环境的有虚拟环境的1、点击 settings,在下面图片中找到右边的设置图标,然后点击Add…2、添加虚拟环境默认设置就行了,然后点击OK按钮。这里因为我已经设置过了,所以是灰色3、选择刚才添加的虚拟环境4、测试一下 pip命令当有内容输出时,就证明虚拟环境配置成功!...原创 2020-10-04 22:01:23 · 281 阅读 · 0 评论 -
Python爬虫—Scrapy框架
一、为什么要使用Scrapy?它更容易构建和大规模的抓取项目它内置的机制被称为选择器,用于从网站(网页)上提取数据它异步处理请求,速度十分快它可以使用自动调节机制自动调整爬行速度确保开发人员可访问性二、Scrapy的特点Scrapy是一个开源和免费使用的网络爬虫框架Scrapy生成格式导出如:JSON,CSV和XMLScrapy内置支持从源代码,使用XPath或CSS表达式的选择器来提取数据Scrapy基于爬虫,允许以自动方式从网页中提取数据三、Scrapy的优点Scrap原创 2020-10-04 21:56:05 · 3095 阅读 · 0 评论