Morning_17-CSDN博客

原创白话Scrapy框架

白话Scrapy框架框架组成引擎它就是整个爬虫框架的大脑，负责指挥，实现信号、数据在不同组成部分之间的传递调度器它是一个队列，一个存放request请求的队列，所有由引擎发过来的request，都会在调度器这里排好队，等着下一步的处理下载器将引擎交付过来的request指令完成，得到response，并返回给引擎爬虫此时说的爬虫更像是一个军师，它根本没有尽到一个爬...

2019-11-07 12:57:54 173

原创阿里云服务器 ubuntu16.04 flask部署（uwsgi+nginx+supervisor）

阿里云部署flask全过程准备环境安装 uWSGI安装Supervisor安装Nginx后话准备阿里云轻量应用服务器 ubuntu 16.04耐心！环境1、在阿里云的控制台找到自己购买的服务器，笔者是用的轻量级服务器 ubuntu16.04系统2、如图，分别点击远程连接，设置密码，这样就可以远程连接了3、开放端口打开后面运行flask需要用到的端口，必须开放，不然无法...

2019-11-05 23:14:14 676 3

原创记录一次参数破解的过程

写在前面这篇文章很多是参照大佬的文章来的感谢Ta提供的教程！http://ju.outofmemory.cn/entry/341656目标中国天气质量在线监测平台网站：https://www.aqistudy.cn/html/city_detail.html情景随意选择一个城市，看看会出现什么emmm，一串莫名其妙的参数不同于平时的表单参数这里，我们就需要去分析它的“加密...

2019-05-09 20:55:45 364

原创 190317-scrapy小结

190317-scrapy小结查看response的具体内容运行时的一些日志解释logging的使用与中间件有关的参数settings.py里本来就有的各种参数说明查看response的具体内容response.url当前响应的url地址response.request.url当前响应对应的请求的url地址response.headers响应头response.body响应体，...

2019-03-17 21:37:15 285

原创 windows10下安装mongodb并且在scrapy中使用Mongodb

准备工作安装mongodb安装可视化工具Robo 3T以上请自行参照百度教程进行具体步骤STEP - 0开启mongodb数据库请参照网上教程将mongodb数据库开启（开启连接端口？？？）开启的时候长这样开启Robo 3T它长这样STEP - 1这里我们需要在pipelines.py文件进行修改，这里我们要做的是与mongodb数据库建立连接需要引入两个东...

2019-03-03 21:51:43 412

原创小结post&get yield

小结POST与GETyield ==&amp;gt; 生成器后记POST与GET很久之前，因为任务的原因，了解过POST和GET，在最近的爬虫任务中，也遇到了POST请求和GET请求。出于好奇，再次去了解了一下相关的东西，又有了一些不一样的体会请求过程POST请求会产生2个(TCP)包，而GET请求只产生1个。GET请求比较粗暴，浏览器会把http header和data一并发送出去，...

2019-02-28 19:47:49 357

爬虫-Scrapy-记录Scrapy框架是什么Scrapy 运行流程制作Scrapy爬虫步骤Scrapy框架配置安装推荐参考资料Scrapy框架是什么图片来自于视频截图 https://www.bilibili.com/video/av13663892?from=search&amp;amp;amp;amp;amp;amp;amp;seid=14558547834902071738 时间：00：18Scrapy 运行流程如片来...

2019-02-21 21:11:03 170

原创爬虫笔记190128

管道什么是管道？案例补充一些东西吧什么是管道？管道也就是item管道，是负责处理spider从网页上爬取过来的item，并进行清洗、验证、存储数据换句话说，管道更像是一个筛子，筛选出我所需要的数据案例接着上次的说吧，我们进行一些修改，如下修改完后我们需要去处理一下管道文件，因为我们需要通过修改管道文件来筛选数据，也就是明确怎样筛选数据（管道文件也就是在项目下的爬虫里面的pipeli...

2019-02-21 21:10:50 119

原创爬虫笔记190127

ITcast小爬虫配置准备目标配置准备实现准备了下xpath helper插件，这是个谷歌浏览器上的小插件，帮助使用F12（额，我也不知道那是个啥）在element中定位元素。目标爬取 http://www.itcast.cn/channel/teacher.shtml#ajavaee 上老师的信息...

2019-02-21 21:10:36 105

原创 Hub-19-02-21

记第二次Hub寒假任务写在前面任务要求开始吧~Step 1 - 分析开始页面Step 2 - 解决翻页Step 3 - 寻找表单里的关键数据写在前面苦逼的寒假马上结束，整个寒假就只弄了实验室的任务，我真的很快落这是我们的第二个任务，比第一次任务一要熟练一些了，萌新渐渐熟练操作，o(╥﹏╥)o废话不多说，开始！任务要求目标网页：http://www.tljyzx.cn/lbv3/n_n...

2019-02-21 21:10:05 516

原创 Urllib库

Urllib库1、 Request &amp;amp; Response引入方法直接url读取request访问2、Get &amp;amp; Post3、Handler4、CookieEND1、 Request &amp;amp; Response引入方法引入urllib.request库python 2import urllib2response = urllib2.urlopen(“www.baid...

2019-02-17 18:02:51 180

原创上课笔记整理-1

上课笔记整理-1概念服务器云服务器依赖关系进程线程关于linux命令winelinux安装文件后缀后端CS架构C/S结构B/S结构P2P网络协议http概念服务器服务器就是高级的计算机吧，有着高速的运算速度和性能云服务器可以理解为就是一个虚拟机翻墙为所欲为依赖关系一个软件需要其他软件作为支撑才能运行仓库里没有智能扩容，从别的库里。。。进程线程线程是进程的子集，eg...

2018-12-19 23:26:32 190

原创谈谈TCP与UDP吧

TCP与UDP先说说TCP吧三次握手第一次第二次第三次再说说UDPUDP会做些什么呢？应用场景小结参考以下全是笔者的一己之见，如有不对，还望各位看官不吝指出先说说TCP吧第一次听说TCP和UDP，还是在学长的口中，三次握手什么的，具体记不太清了，后来就自己查了下资料，全是兴趣（我不会告诉你这是我们的作业）三次握手最终还是需要谈谈三次握手的我眼中的“三次握手”，就是两个...

2018-12-08 19:31:47 140

Morning_0217 博客