自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

HuQi

Python语言开发

  • 博客(32)
  • 资源 (1)
  • 收藏
  • 关注

原创 Scrapy—注意点

1. 创建项目 scrapy startproject 项目名称2. 创建爬虫程序 cd project_name(进入项目目录) scrapy genspider 应用名称 爬取网页的起始url (例如:scrapy genspider qiubai www.qiushibaike.com)3. 执行爬虫程序 scrapy crawl 爬虫名称...

2019-03-22 22:12:24 299

原创 Scrapy—第一个scrapy程序

一、spider文件编写 执行完scrapy genspider 应用名称 爬取网页的起始url 例如:scrapy genspider qiubai www.qiushibaike.com)会在spiders文件夹产生一个和应用同名的.py文件# -*- coding: utf-8 -*-import scrapyclass QiubaiSpider(scrapy....

2019-03-22 22:03:33 353

原创 Scrapy—框架简介和基础应用

一、什么是scrapy? scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框。它集成了各种功能(高性能异步下载、队列、分布式、解析、持久化等)的具有很强通用性的项目模板。二、基础使用1. 创建项目 scrapy startproject 项目名称# 项目结构介绍project_name/ scrapy.cfg: proj...

2019-03-22 21:54:13 319

原创 爬虫—scrapy安装

一、安装wheel升级pippython -m pip install --upgrade pip pip3 install wheel二、检查自己电脑适合哪个版本的twisted# 命令行import pip._internalprint(pip._internal.pep425tags.get_supported())('cp36', 'cp36m', 'win...

2019-03-22 17:30:10 219

原创 爬虫—Fillder安装

https://blog.csdn.net/l1336037686/article/details/78322014

2019-03-22 13:15:55 819

原创 爬虫—cookie设置

一、Session模块#识别人人网中的验证码图片from lxml import etreefrom urllib import requesturl = 'http://www.renren.com/'headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 ...

2019-03-21 22:01:42 1283

原创 爬虫—对于加密数据进行爬取

一、案例1.对一个新的网站进行爬取之前,首先要确定即将要进行爬取的数据是否为动态加载!#需求:爬取煎蛋网的图片数据 http://jandan.net/ooxximport requestsfrom lxml import etreeimport base64from urllib import requestheaders = { 'User-Agent':'...

2019-03-21 13:16:03 4764 2

原创 爬虫—次数过多HTTPConnectionPool

一、常见错误 HTTPConnectionPool(host:XX)Max retries exceeded with url: 如何让请求结束后马上断开连接且释放池中的连接资源:headers={'Connection':'close'} 使用代理ip:requests.get(url=url,headers=h...

2019-03-21 10:01:37 3338

原创 爬虫—反爬机制

reboot.txt User-Agent ip限制-可以代理ip 验证码 ajax动态加载页面 cookie限制 反爬机制

2019-03-21 09:54:55 533

原创 爬虫—request设置使用代理ip

一、获取代理ip的网站快代理 西祠代理 www.goubanjia.com二、代理ip使用#代理ipimport requestsheaders = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.36...

2019-03-21 08:33:30 15046

原创 爬虫—验证码识别

一、云打码平台使用官网url:http://www.yundama.com/demo.html 注册: 普通用户 开发者用户 登录平台 普通用户 - 查询余额(题分) 开发者用户 - 创建一个软件,软件的id和通讯密钥后期在编码时会被用到 -开发文档,下载最新的DLL文档,pythonHTTP编码...

2019-03-21 08:29:15 651

原创 爬虫—解决乱码问题

1. 对响应数据进行修改编码为utf-82. 使用iso#爬取图片:http://pic.netbian.com/4kdongwu/url = 'http://pic.netbian.com/4kdongwu/'response = requests.get(url=url,headers=headers)#将响应数据的编码手动设定成了utf-8# response.encod...

2019-03-20 11:23:40 781

原创 爬虫—解析数据方式

一、爬虫流程1. 指定url2. 基于requests模块发起请求3. 获取响应中的数据4. 数据解析5. 进行持久化存储二、数据解析三种方式1. 正则解析(1)正则表达式单字符: . : 除换行以外所有字符 [] :[aoe] [a-w] 匹配集合中任意一个字符 \d :数字 [0-9] \D : ...

2019-03-19 16:58:11 436

原创 Flask—上下文

一、线程安全1. 定义 在多线程中,同一个进程中的多个线程是共享一个内存地址的,多个线程操作数据时,就会造成数据的不安全,所有我们就要加锁。但是对于一些变量,如果仅仅只在本线程中使用,怎么办? 方法1:可以通过全局的字典,key为当前线程的线程ID,value为具体的值。 方法2:使用threadding.local方法2. threa...

2019-03-18 21:00:32 321

原创 爬虫—Http、Https

一、Http、Https概念1. Http协议 HTTP协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWW:World Wide Web )服务器传输超文本到本地浏览器的传送协议。通俗点,HTTP协议就是服务器(Server)和客户端(Client)之间进行数据交互(相互传输数据)的一种形式。2. Https协议...

2019-03-18 20:20:18 975

原创 爬虫—爬虫概念

一、爬虫基本概念1. 定义 通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程。2. 爬虫分类(1)通用爬虫 - 爬取的是整张页面(2)聚焦爬虫 - 根据指定的需求去网上爬取指定的内容。二、反爬虫机制1.robots.txt协议:指定的是门户中哪些数据可以供爬虫程序进行爬取和非爬取2. User-Agent...

2019-03-18 20:00:43 368

原创 爬虫—requests模块

一、定义 requests模块是python的一个第三方模块,它是基于python自带的urllib模块封装的,用来发送http请求和获取返回的结果,操作很简单。pip install requests对于不需要headers中填写UA伪装的请求可使用urllib#使用urllib模块中的方法进行图片数据的爬取from urllib import request...

2019-03-18 19:41:07 247

原创 爬虫—jupyter环境安装

一、什么是Jupyter Notebook1. 简介 简而言之,Jupyter Notebook是以网页的形式打开,可以在网页页面中直接编写代码和运行代码,代码的运行结果也会直接在代码块下显示。如在编程过程中需要编写说明文档,可在同一个页面中直接编写,便于作及时的说明和解释。2. 注册部分(1)网页应用 网页应用即基于网页形式的、结合了编写说明文档、...

2019-03-18 17:50:05 344

原创 Flask—偏函数

一、偏函数1. 定义 实际上,偏函数主要辅助原函数,作用其实和原函数差不多,不同的是,我们要多次调用原函数的时候,有些参数,我们需要多次手动的去提供值。而偏函数便可简化这些操作,减少函数调用,主要是将一个或多个参数预先赋值,以便函数能用更少的参数进行调用。2. 例子def my_sum(*args): result = 0 for i in args...

2019-03-18 09:57:11 314

原创 Flask—wtform

一、wtform介绍1. 定义 flask设计了WTForm表单库来使flask可以更加简便地管理操作表单数据。WTForm中最重要的几个概念如下: Form类,开发者自定义的表单必须继承自Form类或者其子类。Form类最主要的功能是通过其所包含的Field类提供对表单内数据的快捷访问方式。  各种Field类,即字段。一般而言每个Field类都对应一...

2019-03-18 08:23:49 904

原创 Flask—Session

一、安装Flask-Sessionpycharm中安装 Flask-Sessionterminal安装 pip3 install flask-session 二、Flask-Session介绍1. Flask-Session flask_session是flask框架实现session功能的插件,用来代替flask自带的session机制。2. 配置参数...

2019-03-17 16:36:57 408

原创 Flask—CBV模式

一、CBVfrom flask import Flask,render_template,views,requestapp = Flask(__name__)class Login(views.MethodView): # 可省略 # methods = ["GET","POST"] def get(self): return render_te...

2019-03-17 16:17:28 614

原创 Flask—蓝图

一、Flask蓝图介绍1. 蓝图定义 随着业务代码的增加,将所有代码都放在单个程序文件中,是非常不合适的。这不仅会让代码阅读变得困难,而且会给后期维护带来麻烦。django中的app的主要作用就是将django的项目分成一个个单独的app,然后将所有的app分配不同的处理功能,通过路由分配将它们连接成一个大的django项目,其实Flask中的蓝图和django中的app功能...

2019-03-17 15:42:15 576 1

原创 Flask—特殊装饰器

一、Flask模板相关装饰器1.@app.template_global()1、用法:可以在全局范围的模板中使用这个函数, 而不用通过参数传到模板中 @app.template_global() # 记得加括号 # 这个方法每调用一次就需要传一次, 将他做成一个全局的就用这么麻烦了 def jiafa(a, b): return int(...

2019-03-17 15:31:35 851

原创 Flask—对象实例配置

一、对象实例配置app.default_config{ 'DEBUG': False, # 是否开启Debug模式 'TESTING': False, # 是否开启测试模式 'PROPAGATE_EXCEPTIONS': None, # 异常传播(是否在控制台打印LOG) 当Debug或者testing开启后,自动为True 'PRESERVE_CO...

2019-03-17 15:19:09 385

原创 Flask—静态资源配置

一、Flask实例化配置1. 介绍# 可对实例、配置模板文件路径、静态文路径进行配置Flask(__name__, static_folder='mystatic', static_url_path='/myurl',template_folder='mytemplate')# 静态文件目录的路径 默认当前项目中的static目录static_folder = 'static'...

2019-03-17 15:10:10 5847

原创 Flask—路由

一、添加路由方式# 方式一@app.route("/index", endpoint='index')def my_flask(): time.sleep(1) return "hello world"# 方式二def my_flask(): time.sleep(1) return "hello world"app.add_...

2019-03-17 14:14:43 365

原创 Flask—session

一、Flask中session介绍1. 定义 session是基于cookie实现的,保存在服务端的键值对(形式 {随机字符串:'xxxxx'}),同时在浏览器中的cookie里也对应一个相同的随机字符串,用来再次请求的时候验证; Flask中的session是存在浏览器中,默认key是session(加密的cookie),也可以像Django一样基于上述的...

2019-03-17 13:28:39 624

原创 Flask—Jinja2

一、Jinja2使用1. 后端代码STUDENT_DICT = { 1: {'name': 'Old', 'age': 38, 'gender': '中'}, 2: {'name': 'Boy', 'age': 73, 'gender': '男'}, 3: {'name': 'EDU', 'age': 84, 'gender': '女'},}@app.rou...

2019-03-17 12:53:54 339

原创 Flask—Request模块

一、Request 方法介绍1. Request中 url 的方法使用# 导入request模块from flask import Flask, request1. 查看请求方式 request.method2. 获取URL上的参数,http://192.168.1.1:9090/hello?page=10 request.args.get("page") -&...

2019-03-17 12:05:49 1641

原创 Flask—三剑客

一、Flask三剑客1. HttpResponse@app.route("/index")def index(): return "Hello,Flask!"备注:在Flask 中的HttpResponse 在我们看来其实就是直接返回字符串 2. Redirect# 导入flask中的redirectfrom flask import Flask, redire...

2019-03-16 20:22:51 301

原创 Flask—框架基础

一、Flask简单介绍1. Flask定义 Flask依赖两个外部库:Werkzeug 和 Jinja2。Werkzeug是一个WSGI(在web应用和多种服务器之间的标准Python接口)工具集。Jinja2负责渲染模板。 对于Werkzeug本质是socket服务端,其用于接收http请求并对请求进行预处理,然后触发flask框架,开发人员基于Flask...

2019-03-16 19:54:56 419 1

山石命令手册

近日,国际知名咨询机构Gartner发布了IDPS(Intrusion Detection and Prevention Systems入侵检测与防御系统)魔力象限,山石网科凭借业界领先的技术实力成功入选。此次是继企业级防火墙、UTM魔力象限之后,山石网科入选的又一个重要象限,山石网科所着力发展的综合安全防护能力得到了权威的关注与认可。

2018-04-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除