2018年03月_她最爱橘了

原创 Python连接MongoDB

1. 打开命令行工具输入:pip install pymongo2. 在.py文件输入:from pymongo import MongoClient# 引入mongoclient, 链接mongodb3. 创建对象client = MongoClient('127.0.0.1', 27017)4. 获取数据库db = client.pythondb5. 获取表stu - db.stus6. 就可...

2018-03-30 20:43:20 367

原创 MongoDB数据库

MongoDB: 是一个介于关系数据库和非关系数据库之间的产品, 是非关系数据库当中功能最丰富, 最像关系数据库的. 它支持的数据结构非常松散, 是类似json的bson格式, 因此可以存储比较复杂的数据类型. Mongo最大的特点是它支持的查询语句非常强大, 其语法有点类似面向对象的查询语句, 几乎可以实现类似关系数据库单表查询的绝大部分功能, 而且还支持对数据建立缩影. 由C++语言编写功能特...

2018-03-30 20:09:20 312

原创 Pyspider爬虫框架(以及与Scrapy爬虫框架的优缺点)

Pyspider: 一个国人编写强大的网络爬虫系统并带有强大的WebUI, 采用Python语言编写, 分布式架构, 支持多种数据库后端, 强大的WebUI支持脚本编辑器, 任务监视器, 项目管理器以及结果查看器. 主要功能需求:1> 抓取, 更新调度多站点的特定的页面2> 需要对页面进行结果化信息的提取3> 灵活可扩展, 稳定可监控Pyspider设计基础:1> 通过py...

2018-03-30 14:02:36 6087

原创 Gerapy分布式爬虫管理框架

作用: 从 Scrapy 的部署、启动到监控、日志查看，我们只需要鼠标键盘点几下就可以完成安装流程:1. 打开cmd命令行工具:pip install gerapy2. 安装完成后, 直接输入:gerapy(可以获取它的基本使用方法)3. 在任意路径下执行以下命令:gerapy init(博主路径指定的是桌面)执行完毕后, 本地便会生成一个名字为gerapy的文件夹, 进入该文件夹, 可以看到一个...

2018-03-29 15:39:35 325

原创基于Scrapy_redis部署scrapy分布式爬虫

1. 使用命令行工具下载工具包 scrapy_redispip install scrapy_redis2. 使用pycharm打开项目, 找到settings文件, 配置scrapy项目使用的调度器以及过滤器3. 修改spider爬虫文件4. 如果连接的远程服务, 例如MYSQL,Redis等, 需要将远程服务连接开启, 保证在其他主机上能连接成功5. 配置远程连接的MySQL及redis地址分...

2018-03-26 19:46:48 219

转载 python使用codecs模块进行文件操作-读写中英文字符

由于python中默认的编码是ascii，如果直接使用open方法得到文件对象然后进行文件的读写，都将无法使用包含中文字符（以及其他非ascii码字符），因此建议使用utf-8编码。使用方法读下面的代码读取了文件，将每一行的内容组成了一个列表。 import codecsfile = co...

2018-03-25 16:10:33 412

原创 Scrapyd部署项目爬虫

1. 新建虚拟环境(方便管理), 在虚拟环境中安装scrapy项目需要使用到的包.mkvirualenv --python=C:\python27\scripts\python.exe scrapySpider 新建虚拟环境进入环境使用pip将所需包安装完成打开命令行工具执行 pip install scrapyd等待安装完成输入scrapyd启动scrapyd服务浏览器输入 127.0.0.1:...

2018-03-22 19:50:13 3149

原创创建虚拟环境运行py文件

1. 在命令行cmd中输入 pip install virtualenvwrapper-win 下载python虚拟环境注意: 在使用pip下载包时, 经常会出现超时等情况, 可以使用国内镜像提高下载速度, 例如豆瓣源, 下载速度是非常快的.pip install -i https://pypi.douban.com/simple virtualenvwrapper-win2. 输入workon...

2018-03-22 12:04:39 5179

原创 Scrapy框架之重写下载器中间件

先附一张图, 了解一下思路:红线是原本的路线, 紫色是修改后的路线.在文件中, 自定义一个中间件.class CustomMiddleware(object): process_request(request, spider)当每个request通过下载中间件时，该方法被调用。process_request() 必须返回其中之一: 返回 None 、返回一个Response 对象、返回一个 Req...

2018-03-21 22:18:51 2612

原创爬虫代理池

目的:"""1. 爬虫每次发起请求需要从代理池中提取一个可用代理, 如果提取的代理不可用, 从代理池中删除2. 当代理池中的代理少于某个程度, 需要重新爬取一部分代理, 添加到代理池中"""用到的一些包(看个人需求)import requests# 连接数据库import pymysql# 第三方包的随机请求头from fake_useragent import UserAgent# 与 from...

2018-03-21 20:54:22 399

原创 Scrapy框架将数据保存文json, .xls格式

一: 将数据写入json文件"""逻辑:import codecs, json, os1. 创建pipeline类, 继承objectclass JSONWriterPipeline(object):2. 重写初始化函数, 初始化文件句柄对象, 写入一个[左中括号def __init__(self): self.file =codecs.open('xxx.json', 'w+', encodi...

2018-03-19 19:16:38 660

转载重大改革！教育部将Python纳入全国计算机等级考试科目

据媒体报道，教育部考试中心近日发布了“关于全国计算机等级（NCRE）体系调整”的通知，决定自2018年3月起，在计算机二级考试加入了“Python语言程序设计”科目。早些消息，浙江省信息技术课程改革方案已经出台，Python确定进入浙江省信息技术教材，从2018年起浙江省信息技术教材编程语言将会从vb更换为Python。其实不止浙江，教育大省北京和山东也确定要把...

2018-03-15 14:31:50 1394

原创 Python的PIL(图片截取)

PTL: 是用于对图片进行操作的第三方库, 实现对图片的旋转, 缩放, 剪切, 放大, 缩小等操作(一般用于截取验证码)安装: pip install pillow实例: 验证码截取策略1> 将整个网页的内容全部截取下来2> 在根据验证码图片在整个页面中的x坐标和y坐标, 以及图片自身的宽度和高度, 从整个网页的截图中再接验证码图片通过selenium来演示driver = webdr...

2018-03-14 21:30:23 14014

原创关于云打码平台的'PythonHttp'调用实例的使用

一: 云打码平台的PythonHTTP的下载过程首先先注册一个云打码平台的账号,选择开发者选项登录文件下载流程:最后下载的文件是:这里使用的云打码平台的YDMHTTPD3的版本, 对应的python的版本使用对应的云打码平台的版本.二: 打开YDMHTTPD3进行配置目的: 为了以后解决一些网站的验证码更好的使用此文件注意: 普通用户是通过开发者的id和key来进行接口调试的普通用...

2018-03-14 21:03:21 4177 7

原创 Scrapy框架的图片(文件)下载功能一些配置操作

Scrapy图片(文件)下载这里介绍的是Scrapy框架自带的图片(文件)下载功能一: 初步了解在Scrapy框架的源码中下载图片的文件 --->--->在这个.py文件中代码第69行是: 图片根据哪个属性下载代码第97行是: 图片存放的路径这里只是简单的了解一些scrapy图片下载的一些操作(其它源码自行百度)************************重新/自定义*******...

2018-03-14 20:25:42 1181

原创 Scrapy框架架构概览

Scrapy框架链接点击打开链接这里简要的介绍一下:一: 组件Engine引擎负责控制数据流在系统中所有组件中流动, 并在相应动作发生时触发事件调度器(Scheduler)调度器从引擎接受request并将他们入队, 以便之后引擎请求他们时提供给引擎下载器(Downloader)下载器负责获取页面数据并提供给引擎, 而后提供给spiderSpidersSpider是Scrapy用户编写用于分析re...

2018-03-14 19:58:05 345

原创 Selenium的介绍与使用

selenium: 是一个用于对web网页进行自动化测试的工具, 可以通过它提供的一些方法自动操作浏览器, 可以完全模拟人的操作selenium在Python爬虫中的应用:1> 获取动态网页中的数据, 一些动态的数据我们在获取的源码中并没有显示的这一类动态加载数据2> 用于模拟登录, 一些比较复杂的登录过程, 如果不通过selenium中的浏览器驱动完成登录的话, 我们需要分析出来这个...

2018-03-13 19:35:00 3073

原创 3.12

常用参数介绍_xsrf: 用于登录时需要放在请求体中, 一般是网站为了防止跨站请求伪造攻击而设置的一个随机字符串. 当登录时, 没有提交这个xsrf的值, 后台服务器会认为这是一个非法登录, 那么可能就会产生一个验证码进行确认登录. 一般在浏览器中, 该值是不需要用户填写的, 而是放在Cookie当中.Refer: 计算网页上的链接访问量, 告诉服务器我是从哪个网页链接过来的....

2018-03-12 22:18:16 185

原创 Python3 Sqlite3数据库

Sqlite3是Python内置的一个轻量级数据库数据库是用于保存大量而定, 格式统一的数据, 比如保存name, age, sex, score. 数据库内部的结构是由多张表table构成, 表中是由多个字段构成."""1. 先连接到数据库文件2. 进行数据的写入或读取3. 关闭数据库"""import sqlite31> 连接数据库connect( ): 负责连接数据库文件, 当数据文件...

2018-03-10 16:30:18 3378 1

转载程序员常去的顶级开发社区

程序员常去的顶级开发社区Stack Overflow9月份，Stack Overflow也将迎来其6岁的生日，毫无疑问，Stack Overflow是全球最受程序员欢迎的开发社区，而且也是内容最丰富的社区之一。官方网站：http://stackoverflow.com/Redditreddit也是一个非常富有个性的社区，你可以在reddit上提交一些感兴趣的话题，也可以和其他程序员讨论一些编程开发...

2018-03-09 11:03:57 158

原创 Python3 math模块以及运算优先级

# 在数学之中, 除了加减乘除四则运算之外, 还有其它跟多的运算, 比如乘方, 开方, 对数运算等等, 要实现这些运算, 需要用到Python中的一个模块: math# math 模块是Python标准库中的, 所以可以直接使用# import math# 对于这个模块你可以:# dir(math): dir(模块)是个非常有用的指令, 可以通过它查看任何模块中所包含的工具, 这里可以用一个变量接...

2018-03-06 21:23:23 8223

原创 urllib模块远程下载数据(图片)

# from urllib import request......下载图片......request.urlretrieve(url,filename=None,reporthook=None, data=None)参数url: 图片(数据)的链接地址filename: 指定了保存本地路径(如果参数未指定, urllib会生成一个临时文件保存数据)reporthook: 是一个回调函数, 当连接...

2018-03-06 21:01:17 270

原创正则表达式函数

正则表达式函数有以下几种:1) match( ): 是从目标字符串的开头位置匹配数据, 仅限于开头位置, 成功则返回match对象, 反之, 则返回Nonematch( ) 参数1.正则表达式 2.要进行查找的大字符串 2) search( ): 从目标字符串的任意位置匹配数据, 仅匹配成功一次返回, 如果目标字符串有多个结果的话, 也只能找到一个, 如果不在, 返回Nonesearch( )) ...

2018-03-05 20:22:52 1040

原创正则表达式

正则表达式: 是对字符串内容进行匹配查询的一种操作方式,通过预先定义一些特殊字符的组合,形成一种规则字符串,利用这些规则字符串对字符串中的某一些内容进行提取或查找.常见的正则表达式转义字符"""\d: 匹配一个数字\w: 匹配一个数字或者字母. : 可以匹配某一个字符后跟的任意一个字符a. : a字符后面可以跟任意一个字符都可以匹配成功 * : 可以匹配前面一个字符0个或任意多个字符a* : a可...

2018-03-05 19:56:41 133

原创 Scrapy框架的爬虫代码(封装,存储)和运作爬虫的逻辑分析和注意事项

Scrapy框架一.解析数据1)先大致规划一下需要几个函数,可以用pass来先保存语法的完整性2)函数1跳转函数2使用yield这里的yield与return相似,可以返回一个值,但是不会结束以后的代码,所以在scrapy框架中几乎使用yield1.先在 def parse(self, response)中写入(这个函数是框架自带的,这里的response没有content属性)yield scr...

2018-03-01 22:33:07 1094

原创 Scrapy框架

爬虫框架一般有以下三种:1. Scrapy2.PySpider3.Selenium(自动化测试的一个框架)这里主要介绍ScrapyScrapy的基本用法:1. 在cmd中输入pip install scrapy注意:1.如果安装过程当中提示time out使用以下的命令来安装 pip install -i https://pypi.douban.com/simple scrapy注释: sc...

2018-03-01 21:41:09 865

塔克米的博客