自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 白话Scrapy框架

白话Scrapy框架框架组成引擎它就是整个爬虫框架的大脑,负责指挥,实现信号、数据在不同组成部分之间的传递调度器它是一个队列,一个存放request请求的队列,所有由引擎发过来的request,都会在调度器这里排好队,等着下一步的处理下载器将引擎交付过来的request指令完成,得到response,并返回给引擎爬虫此时说的爬虫更像是一个军师,它根本没有尽到一个爬...

2019-11-07 12:57:54 147

原创 阿里云服务器 ubuntu16.04 flask部署(uwsgi+nginx+supervisor)

阿里云部署flask全过程准备环境安装 uWSGI安装Supervisor安装Nginx后话准备阿里云 轻量应用服务器 ubuntu 16.04耐心!环境1、在阿里云的控制台找到自己购买的服务器,笔者是用的轻量级服务器 ubuntu16.04系统2、如图,分别点击远程连接,设置密码,这样就可以远程连接了3、开放端口​ 打开后面运行flask需要用到的端口,必须开放,不然无法...

2019-11-05 23:14:14 513 3

原创 记录一次参数破解的过程

写在前面这篇文章很多是参照大佬的文章来的感谢Ta提供的教程!http://ju.outofmemory.cn/entry/341656目标中国天气质量在线监测平台网站:https://www.aqistudy.cn/html/city_detail.html情景随意选择一个城市,看看会出现什么emmm,一串莫名其妙的参数不同于平时的表单参数这里,我们就需要去分析它的“加密...

2019-05-09 20:55:45 334

原创 190317-scrapy小结

190317-scrapy小结查看response的具体内容运行时的一些日志解释logging的使用与中间件有关的参数settings.py里本来就有的各种参数说明查看response的具体内容response.url当前响应的url地址response.request.url当前响应对应的请求的url地址response.headers响应头response.body响应体,...

2019-03-17 21:37:15 165

原创 windows10下安装mongodb并且在scrapy中使用Mongodb

准备工作安装mongodb安装可视化工具Robo 3T以上请自行参照百度教程进行具体步骤STEP - 0开启mongodb数据库请参照网上教程将mongodb数据库开启(开启连接端口???)开启的时候长这样开启Robo 3T它长这样STEP - 1这里我们需要在pipelines.py文件进行修改,这里我们要做的是与mongodb数据库建立连接需要引入两个东...

2019-03-03 21:51:43 403

原创 小结post&get yield

小结POST与GETyield ==> 生成器后记POST与GET很久之前,因为任务的原因,了解过POST和GET,在最近的爬虫任务中,也遇到了POST请求和GET请求。出于好奇,再次去了解了一下相关的东西,又有了一些不一样的体会请求过程POST请求会产生2个(TCP)包,而GET请求只产生1个。GET请求比较粗暴,浏览器会把http header和data一并发送出去,...

2019-02-28 19:47:49 345

原创 爬虫笔记1901026

爬虫-Scrapy-记录Scrapy框架是什么Scrapy 运行流程制作Scrapy爬虫步骤Scrapy框架配置安装推荐参考资料Scrapy框架是什么图片来自于视频截图 https://www.bilibili.com/video/av13663892?from=search&seid=14558547834902071738 时间:00:18Scrapy 运行流程如片来...

2019-02-21 21:11:03 106

原创 爬虫笔记190128

管道什么是管道?案例补充一些东西吧什么是管道?管道也就是item管道,是负责处理spider从网页上爬取过来的item,并进行清洗、验证、存储数据换句话说,管道更像是一个筛子,筛选出我所需要的数据案例接着上次的说吧,我们进行一些修改,如下修改完后我们需要去处理一下管道文件,因为我们需要通过修改管道文件来筛选数据,也就是明确怎样筛选数据(管道文件也就是在项目下的爬虫里面的pipeli...

2019-02-21 21:10:50 109

原创 爬虫笔记190127

ITcast小爬虫配置准备目标配置准备实现准备了下xpath helper插件,这是个谷歌浏览器上的小插件,帮助使用F12(额,我也不知道那是个啥)在element中定位元素。目标爬取 http://www.itcast.cn/channel/teacher.shtml#ajavaee 上老师的信息...

2019-02-21 21:10:36 95

原创 Hub-19-02-21

记第二次Hub寒假任务写在前面任务要求开始吧~Step 1 - 分析开始页面Step 2 - 解决翻页Step 3 - 寻找表单里的关键数据写在前面苦逼的寒假马上结束,整个寒假就只弄了实验室的任务,我真的很快落这是我们的第二个任务,比第一次任务一要熟练一些了,萌新渐渐熟练操作,o(╥﹏╥)o废话不多说,开始!任务要求目标网页:http://www.tljyzx.cn/lbv3/n_n...

2019-02-21 21:10:05 343

原创 Urllib库

Urllib库1、 Request & Response引入方法直接url读取request访问2、Get & Post3、Handler4、CookieEND1、 Request & Response引入方法引入urllib.request库python 2import urllib2response = urllib2.urlopen(“www.baid...

2019-02-17 18:02:51 169

原创 上课笔记整理-1

上课笔记整理-1概念服务器云服务器依赖关系进程线程关于linux命令winelinux安装文件后缀后端CS架构C/S结构B/S结构P2P网络协议http概念服务器服务器就是高级的计算机吧,有着高速的运算速度和性能云服务器可以理解为就是一个虚拟机翻墙 为所欲为依赖关系一个软件需要其他软件作为支撑才能运行仓库里没有智能扩容,从别的库里。。。进程线程线程是进程的子集,eg...

2018-12-19 23:26:32 179

原创 谈谈TCP与UDP吧

TCP与UDP先说说TCP吧三次握手第一次第二次第三次再说说UDPUDP会做些什么呢?应用场景小结参考以下全是笔者的一己之见,如有不对,还望各位看官不吝指出先说说TCP吧第一次听说TCP和UDP,还是在学长的口中,三次握手什么的,具体记不太清了,后来就自己查了下资料,全是兴趣 (我不会告诉你这是我们的作业)三次握手最终还是需要谈谈三次握手的我眼中的“三次握手”,就是两个...

2018-12-08 19:31:47 131

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除