2018年07月_MXuDong

12月 11月 10月 09月 08月 07月 06月

原创网关协议学习:CGI、FastCGI、WSGI、uWSGI

相关文章推荐：https://baijiahao.baidu.com/s?id=1590941335729952485&wfr=spider&for=pc一直对这四者的概念和区别很模糊，现在就特意梳理一下它们的关系与区别。CGICGI即通用网关接口(Common Gateway Interface)，是外部应用程序（CGI程序）与Web服务器之间的接口标准，是在CGI程...

2018-07-31 20:55:15 610

原创 Python创建目录文件夹并对数据进行读写操作

参考文件夹操作命令总结：https://blog.csdn.net/qq_33472765/article/details/80841142Python对文件的操作还算是方便的，只需要包含os模块进来，使用相关函数即可实现目录的创建。注意：新创建一个文件夹（os.mkdirs），并进入(os.chdirs),进行相关操作后，最后要退出（os.chdirs('../')）该文件，以便于下一次...

2018-07-28 16:50:49 6656 1

原创 Django中的ORM操作——模型类数据查询

1.查询基本格式及理解：类名.objects.[查询条件]　　例如我们要查询数据库中一张表(bookinfo)的所有数据，sql语句为：select * from bookinfo,　　对应模型类的操作是： BookInfo.objects.all() 　　cd到当前django项目的目录下，进入携带django环境的python解释器进行测试操作：　　　　$ python ...

2018-07-28 16:15:55 570

原创 Django中关于ORM 外键操作及初识Ajax

一、内容回顾1、Django请求的生命周期：路由系统 -> 视图函数（获取模板+数据 -> 渲染） -> 字符串返回给用户2、路由系统：/index/ #-> 函数或类.as_view()/detail/(\d+) #-> 函数(参数) 或类.as_view()（参数）/detail/(?...

2018-07-28 16:09:53 234

原创 Django中关于ORM数据库中的操作————（主要是models.py的设计（数据表的设计）与settings.py 的配置）

大纲一、DjangoORM 创建基本类型及生成数据库表结构 1、简介 2、创建数据库表结构二、Django ORM基本增删改查 1、表数据增删改查 2、表结构修改三、Django ORM 字段类型 1、字段类型介绍 2、字段参数介绍 3、Django ORM 外键操作一、DjangoORM 创建基本类型及生成数据库表结构1、简介ORM：关系对象映射。定义一个...

2018-07-28 15:41:35 759

原创 Django模板中加减乘除基本语法

Django模版加法：{{ value|add:10}} value=5，则返回15 Django模版减法：{{value|add:-10}} value=5，则返回-5，这个比较好理解，减法就是加一个负数 Django模版乘法：{% widthratio 5 1 100 %} 上面的代码表示：5/1 *100，返回500，widthratio需要三个参数，它会使...

2018-07-23 21:14:47 8079 2

转载 Python中os与sys两模块的区别

转载：http://www.itcast.cn/news/20160831/1848418827.shtml os与sys模块的官方解释如下： os: This module provides a portable way of using operating system dependent functionality. 这个模块提供了一种方便的使用操作系统函数的方法。...

2018-07-21 15:02:27 109

原创 Python3—scrapyd服务部署爬虫项目

Python3—scrapyd服务部署爬虫项目注意：Python2.7和Python3的配置不同，注意区分！！目录 Python3—scrapyd服务部署爬虫项目一、需要安装scrapyd==2.0 scrapyd-client==2.0a1二、启动scrapyd服务三、配置爬虫项目（s...

2018-07-18 22:01:48 3119 1

原创 Gerapy分布式爬虫管理框架

Gerapy分布式爬虫管理框架推荐参考：关于Gerapy其他功能介绍——打开连接 GitHub详细的介绍——打开连接一、介绍：Gerapy 是一款分布式爬虫管理框架，支持 Python 3，基于 Scrapy、Scrapyd、Scrapyd-Client、Scrapy-Redis、...

2018-07-18 21:56:41 672

原创 scrapy-redis分布式爬虫

分布式爬虫目录分布式爬虫相关的参考资料依赖环境相关介绍分布式问题项目中（settings和爬虫文件.py）代码的配置MySQL和redis的配置开始分布式爬虫重启分布式爬虫相关的参考资料scrapy-redis库GitHub地址：github地址点击打开本博客的总结和示例代码下载地址：https://download.csdn.net/downl...

2018-07-17 22:21:08 640 2

原创 python 时间类型和相互转换（附：示例代码）

菜鸟教程地址：http://www.runoob.com/python/python-date-time.htmlpython 时间类型和相互转换time有四种类型（time, datetime, string, timestamp）1. time stringstring是最简单的表示time的方式如以下代码生成的即为string：>>> import time>&gt...

2018-07-15 11:54:10 1597

菜鸟地址：http://www.runoob.com/python3/python3-json.html点击打开链接参考博客：https://blog.csdn.net/t8116189520/article/details/78727971点击打开链接JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式，易于人阅读和编写。JSON 函数使用 JSON 函数...

2018-07-15 11:23:57 316

原创 Python中关于URL的处理（基于Python2.7版本）

参考官方文档：https://docs.python.org/3/library/urllib.html点击打开链接1、完整的url语法格式：协议://用户名@密码:子域名.域名.顶级域名:端口号/目录/文件名.文件后缀?参数=值#标识2 、urlparse模块对url的处理方法 urlparse模块对url的主要处理方法有：urljoin/urlsplit/urlunsplit/urlp...

2018-07-15 09:27:59 9125

原创 Python的scrapy框架爬虫项目中加入邮箱通知（爬虫启动关闭等信息以邮件的方式发送到邮箱）

前面关于发送邮件的博客参考：普通邮件博客——点击打开链接带附件的邮件——点击打开链接准备：1、创建scrapy爬虫项目2、代码主要是两部分：呈上代码第一部分是发送邮件的代码：import smtplibfrom email.mime.text import MIMETextimport logg...

2018-07-12 22:12:11 1879

原创使用Python实现发送带有附件的邮箱（HTML，文档，图片）

另一篇关于发送邮件的博客：点击打开准备工作：1、准备好使用的邮箱和邮箱授权码。2、准备好HTML，文档和图片，如下图主要使用的模块（注意查看相应模块的源码）：import smtplibfrom email.mime.text import MIMETextfrom email.mime.image import MIMEImagefrom email.mime.multipart impo...

2018-07-12 21:33:01 7339 2

原创 Python爬虫scrapy框架爬取动态网站——scrapy与selenium结合爬取数据

scrapy框架只能爬取静态网站。如需爬取动态网站，需要结合着selenium进行js的渲染，才能获取到动态加载的数据。如何通过selenium请求url，而不再通过下载器Downloader去请求这个url?方法：在request对象通过中间件的时候，在中间件内部开始使用selenium去请求url，并且会得到url对应的源码，然后再将源代码通过response对象返回，直接交给pro...

2018-07-11 23:06:45 18133 3

原创使用Python实现QQ邮箱/163邮箱的邮件发送

QQ邮箱/163邮箱的邮件发送：py文件发送邮件内容相当于一个第三方的客户端，借助于QQ/163邮箱服务器来发送的邮件。主要配置：导入模块——import smtplib 邮箱SMTP服务器的主机地址，HOST——将来使用这个服务器收发邮件。配置服务器端口，PORT ——默认的邮件端口是25（QQ邮...

2018-07-11 21:17:09 4043

原创 Python爬虫是scrapy框架中ItemLoaders使用解析

ItemLoaders的作用： #使用Item Loaders对Item数据进行提取和解析(整理)。作用：之前的方式（使用response.xpath（）或response.css(）提取数据然后直接处理数据），是将数据的提取和解析混合在一起，但是Item Loaders是将这两个部分分开处理了； A、爬虫文件bole.py中只负责数据的提取； B、Ite...

2018-07-10 20:55:27 1200

原创 POST请求与GET请求（面试题）

一、原理区别一般我们在浏览器输入一个网址访问网站都是GET请求;再FORM表单中，可以通过设置Method指定提交方式为GET或者POST提交方式，默认为GET提交方式。HTTP定义了与服务器交互的不同方法，其中最基本的四种：GET，POST，PUT，DELETE，HEAD，其中GET和HEAD被称为安全方法，因为使用GET和HEAD的HTTP请求不会产生什么动作。不会产生动作意味着GET...

2018-07-09 23:05:56 3183

转载还在用 Python 2.x？Python 3.7.0 正式发布！

6 月 27 日，期待已久的 Python 3.7.0 正式发布，与之同行的还有 3.6.6 版本的更新。此次，最新版的 Python 3.7.0 带来了诸多的新功能和优化，接下来，让我们一睹为快。▌Python 3.7.0 主要更新新的语法...

2018-07-09 22:24:14 221

原创 MySQL数据库的异步写入

注意：数据库pymysql的commit()和execute()在提交数据时，都是同步提交至数据库，由于scrapy框架数据的解析和异步多线程的，所以scrapy的数据解析速度，要远高于数据的写入数据库的速度。如果数据写入过慢，会造成数据库写入的阻塞，影响数据库写入的效率。通过多线程异步的形式对数据进行写入，可以提高数据的写入速度。使用twsited异步IO框架，实现数据的异步写入。代码中参数格...

2018-07-09 21:31:23 6644

原创 scrapy基础知识之发送POST请求与使用 FormRequest.from_response() 方法模拟登陆

scrapy基础知识之发送POST请求：可以使用 yield scrapy.FormRequest(url, formdata, callback)方法发送POST请求。如果希望程序执行一开始就发送POST请求，可以重写Spider类的start_requests(self) 方法，并且不再调用start_urls里的url。class mySpider(scrapy.Spider): #...

2018-07-08 14:19:06 11815

原创 scrapy基础知识之 scrapy 三种模拟登录策略

注意：模拟登陆时，必须保证settings.py里的 COOKIES_ENABLED (Cookies中间件) 处于开启状态 COOKIES_ENABLED = True或 # COOKIES_ENABLED = False策略一：直接POST数据（比如需要登陆的账户信息)# -*- coding: utf-8 -*-import scrapyclass Renren1Spider(s...

2018-07-08 14:18:49 298

原创 scrapy基础知识之 Logging

scrapy基础知识之 Logging：修改配置文件settings.py，任意位置添加LOG_FILE = "XxSpider.log"LOG_LEVEL = "INFO"Log levelsScrapy提供5层logging级别:CRITICAL - 严重错误(critical)ERROR - 一般错误(regular errors)WARNING - 警告信息(warning messag...

2018-07-08 14:05:15 538

原创 Python爬虫scrapy框架Cookie池（微博Cookie池）的使用

下载代码Cookie池（这里主要是微博登录，也可以自己配置置其他的站点网址）下载代码GitHub：https://github.com/Python3WebSpider/CookiesPool下载安装过后注意看网页下面的相关基础配置和操作！！！！！！！！！！！！！自己的设置主要有下面几步：1、配置其他设置2、设置使用的浏览器3、设置模拟登陆源码...

2018-07-08 12:04:52 14116

原创 Python中scrapy爬虫框架的数据保存方式（包含：图片、文件的下载）

注意：settings.py中ITEM_PIPELINES中数字代表执行顺序（范围是1-1000），参数需要提前配置在settings.py中（也可以直接放在函数中，这里主要是放在settings.py中），同时settings.py需要配置开启一、scrapy自带的保存方式（图片，文档的下载）需要在settings.py中配置：主要是开启# Configure item pipelines# ...

2018-07-07 18:12:08 19032 3

原创 Python爬虫scrapy框架的源代码分析

创建项目与配置环境后：上图主要是关于各个组件的作用！下面是部分组件的详情：项目名.py(eg:baidu.py)# -*- coding: utf-8 -*-import scrapy# scrapy: 是一个基于异步+多线程的方式运行爬虫的框架，内部的函数都是以回调的形式执行的，不能手动调用。class BaiduSpider(scrapy.Spider): # name: ...

2018-07-07 15:00:03 10456 3

原创 Python爬虫安装scrapy以及创建scrapy爬虫项目

第一步：安装Python虚拟环境并创建scrapy（注意：尽量不要创建在C盘，scrapy仅仅是示例名字）安装虚拟环境相关博客：点击打开链接第二步：进入scrapy安装相应的文件: pip install....，如果有包的话也可以直接放进来！,如图：第三步：安装pypiwin32(注意：运行scrapy的时候，如果没有安装pypiwin32，会出异常。)如果出现下面的需要单独安装红色部分：pip...

2018-07-03 21:29:18 629

原创 Python的虚拟环境的安装与配置

安装Python的虚拟环境的安装与配置1.下载virtualenvwrapper-win 包2.输入workon命令查看是否可用(可以关闭一次cmd窗口然后再打开操作) 3.使用virtualenvwrapper创建虚拟环境默认放在C:\Users\Administrator\Envs目录中可以修改存放的路径：找到系统环境变量，添加WORKON_HOME为指定路径即可运行workon，目录...

2018-07-03 20:52:14 291

原创 for遍历列表——将遍历的结果赋给多个变量（元素是元组的列表的遍历）

list = ['11','21','31','41']for a in list: print(a)以上是正常的一般的遍历情况！！！如果想要遍历列表中元组分别赋给几个变量怎么办呢？？第一种错误：list = ['11','21','31','41'] for a,b,c,d in list: print(a,b,c)结果：第二种错误：list = ['11','21',...

2018-07-03 08:53:49 16121

timeseriesSeq2Seq_cove_info数据集

timeseriesSeq2Seq_cove_info数据集个人博客对应：https://mp.csdn.net/postedit/84716929

2018-12-08

scrapy分布式爬虫（爬虫项目与总结资料）

分布式爬虫总结资料与示例爬虫！主要是自用的，不推荐！

2018-07-17

Python代理ip（代理池）

GitHub上也有！代理ip，python免费代理池，使用注意保持cmd保持打开，运行代码！

2018-07-08

禅道、Gitlab的安装

禅道、Gitlab的安装：企业开发项目的交流，查看，协同开发！

2018-07-08

Python安装scrapy框架的twisted文件（twisted.rar，Twisted-17.9.0.dist-info.rar）

twisted.rar，Twisted-17.9.0.dist-info.rar：主要是Python虚拟环境中scrapy的框架容易安装失败的两个，可能时间久了，就会不适用！！

2018-07-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

家有代码初写成的博客

原创网关协议学习:CGI、FastCGI、WSGI、uWSGI

原创 Python创建目录文件夹并对数据进行读写操作

原创 Django中的ORM操作——模型类数据查询

原创 Django中关于ORM 外键操作及初识Ajax

原创 Django中关于ORM数据库中的操作————（主要是models.py的设计（数据表的设计）与settings.py 的配置）

原创 Django模板中加减乘除基本语法

转载 Python中os与sys两模块的区别

原创 Python3—scrapyd服务部署爬虫项目

原创 Gerapy分布式爬虫管理框架

原创 scrapy-redis分布式爬虫

原创 python 时间类型和相互转换（附：示例代码）

原创 Python解析Json数据小结

原创 Python中关于URL的处理（基于Python2.7版本）

原创 Python的scrapy框架爬虫项目中加入邮箱通知（爬虫启动关闭等信息以邮件的方式发送到邮箱）

原创使用Python实现发送带有附件的邮箱（HTML，文档，图片）

原创 Python爬虫scrapy框架爬取动态网站——scrapy与selenium结合爬取数据

原创使用Python实现QQ邮箱/163邮箱的邮件发送

原创 Python爬虫是scrapy框架中ItemLoaders使用解析

原创 POST请求与GET请求（面试题）

转载还在用 Python 2.x？Python 3.7.0 正式发布！

原创 MySQL数据库的异步写入

原创 scrapy基础知识之发送POST请求与使用 FormRequest.from_response() 方法模拟登陆

原创 scrapy基础知识之 scrapy 三种模拟登录策略

原创 scrapy基础知识之 Logging

原创 Python爬虫scrapy框架Cookie池（微博Cookie池）的使用

原创 Python中scrapy爬虫框架的数据保存方式（包含：图片、文件的下载）

原创 Python爬虫scrapy框架的源代码分析

原创 Python爬虫安装scrapy以及创建scrapy爬虫项目

原创 Python的虚拟环境的安装与配置

原创 for遍历列表——将遍历的结果赋给多个变量（元素是元组的列表的遍历）

timeseriesSeq2Seq_cove_info数据集

scrapy分布式爬虫（爬虫项目与总结资料）

Python代理ip（代理池）

禅道、Gitlab的安装

Python安装scrapy框架的twisted文件（twisted.rar，Twisted-17.9.0.dist-info.rar）

空空如也