自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 白话Scrapy框架

白话Scrapy框架 框架组成 引擎 它就是整个爬虫框架的大脑,负责指挥,实现信号、数据在不同组成部分之间的传递 调度器 它是一个队列,一个存放request请求的队列,所有由引擎发过来的request,都会在调度器这里排好队,等着下一步的处理 下载器 将引擎交付过来的request指令完成,得到response,并返回给引擎 爬虫 此时说的爬虫更像是一个军师,它根本没有尽到一个爬...

2019-11-07 12:57:54 147

原创 阿里云服务器 ubuntu16.04 flask部署(uwsgi+nginx+supervisor)

阿里云部署flask全过程准备环境安装 uWSGI安装Supervisor安装Nginx后话 准备 阿里云 轻量应用服务器 ubuntu 16.04 耐心! 环境 1、在阿里云的控制台找到自己购买的服务器,笔者是用的轻量级服务器 ubuntu16.04系统 2、如图,分别点击远程连接,设置密码,这样就可以远程连接了 3、开放端口 ​ 打开后面运行flask需要用到的端口,必须开放,不然无法...

2019-11-05 23:14:14 516 3

原创 记录一次参数破解的过程

写在前面 这篇文章很多是参照大佬的文章来的 感谢Ta提供的教程! http://ju.outofmemory.cn/entry/341656 目标 中国天气质量在线监测平台 网站:https://www.aqistudy.cn/html/city_detail.html 情景 随意选择一个城市,看看会出现什么 emmm,一串莫名其妙的参数 不同于平时的表单参数 这里,我们就需要去分析它的“加密...

2019-05-09 20:55:45 335

原创 190317-scrapy小结

190317-scrapy小结查看response的具体内容运行时的一些日志解释logging的使用与中间件有关的参数settings.py里本来就有的各种参数说明 查看response的具体内容 response.url 当前响应的url地址 response.request.url 当前响应对应的请求的url地址 response.headers 响应头 response.body 响应体,...

2019-03-17 21:37:15 167

原创 windows10下安装mongodb并且在scrapy中使用Mongodb

准备工作 安装mongodb 安装可视化工具Robo 3T 以上请自行参照百度教程进行 具体步骤 STEP - 0 开启mongodb数据库 请参照网上教程将mongodb数据库开启(开启连接端口???) 开启的时候长这样 开启Robo 3T 它长这样 STEP - 1 这里我们需要在pipelines.py文件进行修改,这里我们要做的是与mongodb数据库建立连接 需要引入两个东...

2019-03-03 21:51:43 403

原创 小结post&get yield

小结POST与GETyield ==> 生成器后记 POST与GET 很久之前,因为任务的原因,了解过POST和GET,在最近的爬虫任务中,也遇到了POST请求和GET请求。出于好奇,再次去了解了一下相关的东西,又有了一些不一样的体会 请求过程 POST请求会产生2个(TCP)包,而GET请求只产生1个。 GET请求比较粗暴,浏览器会把http header和data一并发送出去,...

2019-02-28 19:47:49 345

原创 爬虫笔记1901026

爬虫-Scrapy-记录Scrapy框架是什么Scrapy 运行流程制作Scrapy爬虫步骤Scrapy框架配置安装推荐参考资料 Scrapy框架是什么 图片来自于视频截图 https://www.bilibili.com/video/av13663892?from=search&seid=14558547834902071738 时间:00:18 Scrapy 运行流程 如片来...

2019-02-21 21:11:03 107

原创 爬虫笔记190128

管道什么是管道?案例补充一些东西吧 什么是管道? 管道也就是item管道,是负责处理spider从网页上爬取过来的item,并进行清洗、验证、存储数据 换句话说,管道更像是一个筛子,筛选出我所需要的数据 案例 接着上次的说吧,我们进行一些修改,如下 修改完后我们需要去处理一下管道文件,因为我们需要通过修改管道文件来筛选数据,也就是明确怎样筛选数据(管道文件也就是在项目下的爬虫里面的pipeli...

2019-02-21 21:10:50 109

原创 爬虫笔记190127

ITcast小爬虫配置准备目标 配置准备 实现准备了下xpath helper插件,这是个谷歌浏览器上的小插件,帮助使用F12(额,我也不知道那是个啥)在element中定位元素。 目标 爬取 http://www.itcast.cn/channel/teacher.shtml#ajavaee 上老师的信息 ...

2019-02-21 21:10:36 95

原创 Hub-19-02-21

记第二次Hub寒假任务写在前面任务要求开始吧~Step 1 - 分析开始页面Step 2 - 解决翻页Step 3 - 寻找表单里的关键数据 写在前面 苦逼的寒假马上结束,整个寒假就只弄了实验室的任务,我真的很快落 这是我们的第二个任务,比第一次任务一要熟练一些了,萌新渐渐熟练操作,o(╥﹏╥)o 废话不多说,开始! 任务要求 目标网页:http://www.tljyzx.cn/lbv3/n_n...

2019-02-21 21:10:05 345

原创 Urllib库

Urllib库1、 Request & Response引入方法直接url读取request访问2、Get & Post3、Handler4、CookieEND 1、 Request & Response 引入方法 引入urllib.request库 python 2 import urllib2 response = urllib2.urlopen(“www.baid...

2019-02-17 18:02:51 169

原创 上课笔记整理-1

上课笔记整理-1概念服务器云服务器依赖关系进程线程关于linux命令winelinux安装文件后缀后端CS架构C/S结构B/S结构P2P网络协议http 概念 服务器 服务器就是高级的计算机吧,有着高速的运算速度和性能 云服务器 可以理解为就是一个虚拟机 翻墙 为所欲为 依赖关系 一个软件需要其他软件作为支撑才能运行 仓库里没有智能扩容,从别的库里。。。 进程线程 线程是进程的子集,eg...

2018-12-19 23:26:32 180

原创 谈谈TCP与UDP吧

TCP与UDP先说说TCP吧三次握手第一次第二次第三次再说说UDPUDP会做些什么呢?应用场景小结参考 以下全是笔者的一己之见,如有不对,还望各位看官不吝指出 先说说TCP吧 第一次听说TCP和UDP,还是在学长的口中,三次握手什么的,具体记不太清了,后来就自己查了下资料,全是兴趣 (我不会告诉你这是我们的作业) 三次握手 最终还是需要谈谈三次握手的 我眼中的“三次握手”,就是两个...

2018-12-08 19:31:47 131

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除