an~晴天-CSDN博客

原创 urljoin的用法

from urllib.parse import urljoinurljoin('要添加的域名', url)例如:T

2018-11-08 14:03:54 5354

原创 python第三方包扩展

Python常用的第三方扩展包，在pip install 安装不上的时候，可以通过https://www.lfd.uci.edu/~gohlke/pythonlibs/ 安装

2018-11-08 13:57:28 182

原创 scrapyd-server

需要安装scrapyd=1.2.0 scrapyd-client=1.2.0a1 启动scrapyd服务配置爬虫项目开始向scrapyd中部署项目通过scrapyd-deploy命令测试scrapyd-deploy是否可用。查看当前可用于部署到scrapyd服务中的爬虫有哪些。参数1： [deploy: jobbole]参数2： scrapy.cfg文中中的url...

2018-07-18 15:48:05 350

原创 scrapy各部分之间的数据流向是如何交互的，详细描述一下

1>引擎将起始url构造成Request交给调度器；2>调度器对Request对象生成指纹信息，根据是否去重来决定是否将Request放入队列中；3>引擎从调度器得队列中不断得获取下一个Request请求；4>引擎将Reques请求交给下载器Downloader进行下载，期间会经过下载器中间件process_request得处理；5>下载器下载完成以后，经过proce...

2018-07-13 21:17:32 1067

原创 cookie和session的区别是什么?

区别：cookie保存在客户端。Session保存在服务器端。交互过程：1>用于首次访问网站得时候，服务器会通过Set-Cookie字段向客户端返回一些cookie信息；2>客户端在接收到服务器响应之后，会解析响应头中得Set-Cookie字段，将数据缓存在本地；3>客户端再次访问服务器得时候，会在请求头中携带这些cookie信息，用于表明客户端和服务器之间得连接状态； ...

2018-07-13 21:15:53 140

原创 python虚拟环境的配置及使用(结合python虚拟环境的安装和配置)

1,配置虚拟环境所需的打开配置虚拟环境的文件夹把下载的Twisted和Twisted-17.9.0.dist-info放入该文件中打开cmd 输入workon scrapy进入虚拟环境中安装pypiwin32 运行scrapy的时候，如果没有安装pypiwin32，会出异常。报错了,是因为以下几个没有安装这几个需要单独pip ins...

2018-07-09 22:32:27 374

Python虚拟环境的安装和配置(windows)1.先在电脑上将python2.7和python3.5版本安装完成，并记清楚安装路径,统一安装在D盘2.配置系统环境变量中的path路径，添加路径的版本即为默认使用版本 3.在命令行工具中输入pip install virtualenv 下载python虚拟环境 4.在使用pip下载包时，经常会出现超时等情况，可以使用国内镜像提高下载速度，例如豆瓣...

2018-07-09 22:10:30 541

转载 cookie的配置和使用

阅读数：87一.引导可扩展的Cookies池，目前对接了新浪微博，m.weibo.cn，可自行扩展其他站点使用 Cookie池，定期的检查Cookie是否失效，可以将多个账号登录之后的Cookie保存在池子中，在爬取网站时，可以随机获取一个账号的登录Cookie，实现多账号爬取的功能。二.下载及相关配置可参考文档:https://github.com/Python3WebSpider/Cookie...

2018-07-09 21:49:47 2726

转载 scrapy流程图的相关讲解

一.scrapy架构预览图二.scrapy架构预览图讲解 Scrapy数据流是由执行的核心引擎(engine)控制,流程是这样的: 1、爬虫引擎获得初始请求开始抓取。 2、爬虫引擎开始请求调度程序,并准备对下一一次的请求进行抓取。3、爬虫调度器返回下一个请求给爬虫引擎。 4、引擎请求发送到下载器,通过下载中间件下载网络数据。5、-旦下载器完成页面下载,将下载结果返回给爬虫引擎。6、引擎将下...

2018-07-09 21:45:57 377

原创 jquery中的Ajax请求

浏览器端服务端路径参数url:/add/3/5App.route(“/add/<a>/<b>”)def add(a,b): 查询字符串参数url:/add?a=3&b=5app.route(“/add”)def add():a=request.args.get(‘a’)b=request.args.get(‘b’) URLencoded请求体参数Method:po...

2018-07-09 21:23:45 113

原创 ProxyPool 代理IP的下载使用

https://github.com/Germey/ProxyPool下载ProxyPool 打开cmd进入到ProxyPool目录\ 执行 pipinstall fake_useragent 127.0.0.1:5000/count查看可用数量127.0.0.1:5000/get/可以查看IP...

2018-07-09 21:20:07 1310

原创卸载MySQL安装包

卸载MySQL查出mysql的安装包rpm -qa | grep mysql 删除上面查出的安装包rpm -e --nodeps mysql-community-libs-5.7.22-1.el7.x86_64 mysql57-community-release-el7-11.noarch mysql-community-common-5.7.22-1.el7.x86_64 mysql-comm...

2018-07-09 21:14:43 969

原创安装MongoDB

下载安装安装第二步：选择第二个 custom 打开cmd执行C:\Program Files\MongoDB\Server\3.6\bin 进入bin文件Mongo --dbpath “C:\Program Files\MongoDB\Server\3.6\data\db”(启动服务,必须进入bin目录) 打开data 新建文件夹logs,并在其中建立mongo.log Cmd中执行...

2018-07-09 21:12:13 184

weixin_42336553的博客