Python小学生-CSDN博客

原创在中信工作的那些日子

我想回顾和总结一下在中信工作的这段时间的成长与收获。首先，我是在18年第一个工作日外派到中信证券的，我们项目组稳定是5个外包人员和5个中信内部的员工一起协作开发的。刚来的时候发现工位附近都是名牌大学的研究生，什么北邮，北航，清华，北大随处可见的。通过一年半的工作交流感觉在他们身上学到了很多东西，也发现一些自身的不足。我是在智能交易项目组,做数据接口工作.刚到项目组连一些基本的金融知识都不清楚...

2019-06-10 22:33:03 1232

原创 Git---详解

一：Git的安装二：设置用户名和邮箱1.设置用户名 $ git config --global user.name "github的用户名"例如： $ git config --global user.name "wqclyr07081022" 2.配置邮箱 $ git config --global user.email "github的邮箱"例如： $ git config --global

2017-11-19 11:22:27 368

原创常用的HTTP状态码

常用的HTTP状态码如下成功的状态码： - 200 – 服务器成功返回网页 - 304 – 未修改失败的状态码： - 404 – 请求的网页不存在 - 503 – 服务器暂时不可用 - 500 – 服务器内部错误下面的不是很常用，记住上面那几个就ok了，有bug了再补充其他的状态码如下：1xx（临时响应）用于表示临时响应并需要请求者执行操作才能继续的状态代码。100（Continue

2017-11-18 10:01:11 268

原创 XPath-语法大全

XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航。什么是 XPath?XPath 使用路径表达式在 XML 文档中进行导航XPath 包含一个标准函数库XPath 是 XSLT 中的主要元素XPath 是一个 W3C 标准 XPath 路径表达式XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表

2017-11-16 20:23:20 2157

原创爬虫Scrapy-避免被禁止

在scrapy项目中，如何应对反爬虫机制？01-简述主要方法禁止Cookie设置下载延迟时使用IP池使用用户代理池其他方法如进行分布式爬取02-禁止Cookie原理：网站会通过Cookie信息对用户进行识别和分析，此时如果我们禁止本地Cookie信息让对方网站无法识别出我们的会话信息。------settingsCOOKIES_ENABLED = False03-设置下载延迟原理：网

2017-11-16 17:00:41 3549

原创爬虫Scrapy-常用工具命令行

scrapy:工具命令行分为两种：全局命令和项目命令。注意：全局命令可以在全局中直接运行，而项目命令必须在scrapy项目中运行。01-全局命令查看全局命令scrapy -hAvailable commands: bench Run quick benchmark test check Check spider contracts crawl

2017-11-16 14:07:17 711

原创爬虫Scrapy-05Spider

SpiderSpider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。换句话说，Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方。class scrapy.Spider是最基本的类，所有编写的爬虫必须继承这个类。主要用到的函数及调用顺序为：__init__() : 初始化爬虫名字和start_u

2017-11-16 10:04:56 357

原创爬虫Scrapy-04Item Pipeline

当Item在Spider中被收集之后，它将会被传递到Item Pipeline，这些Item Pipeline组件按定义的顺序处理Item。每个Item Pipeline都是实现了简单方法的Python类，比如决定此Item是丢弃而存储。以下是item pipeline的一些典型应用：验证爬取的数据(检查item包含某些字段，比如说name字段)查重(并丢弃)将爬取结果保存到文件或者数据库中

2017-11-16 09:52:44 225

原创爬虫Scrapy-03Shell和Selectors

01-shell简介Scrapy终端是一个交互终端，我们可以在未启动spider的情况下尝试及调试代码，也可以用来测试XPath或CSS表达式，查看他们的工作方式，方便我们爬取的网页中提取的数据。如果安装了 IPython ，Scrapy终端将使用 IPython (替代标准Python终端)。 IPython 终端与其他相比更为强大，提供智能的自动补全，高亮输出，及其他特性。（推荐安装IPytho

2017-11-15 21:29:44 364

原创爬虫Scrapy-02入门程序

01-需求目标创建一个Scrapy项目定义提取的结构化数据(Item)编写爬取网站的 Spider 并提取出结构化数据(Item)编写 Item Pipelines 来存储提取到的Item(即结构化数据)02-创建项目在开始爬取之前，必须创建一个新的Scrapy项目。进入自定义的项目目录中，运行下列命令scrapy startproject mySpider其中， mySpider 为项目

2017-11-15 21:07:58 343

原创爬虫Scrapy-01框架介绍

01-简介Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。框架的力量，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便。Scrapy 使用了 Twisted‘twɪstɪd异步网络框架来处理网络通讯，可以加快我们的下载速度，不用自己去实现异步框架，并且包含了各种中间件接口，可以灵活的完成各种需求

2017-11-15 19:49:09 347

原创 MySql基础操作大全加案例02

13、分组 select * from 表名 group by (你要分组的字段) mysql> select * from bbs_user group by (province);+----+-----------+----------+------+--------+-------+---------+-------+-----------+------+|

2017-11-06 20:43:00 199

原创 MySql基础操作大全加案例01

【数据库MySql】作用：存数据譬如： 1、你的开房记录 2、银行卡信息 3、身份证信息数据库包括 1、库 2、表 3、字段 4、数据行【关系型数据库和非关系型数据库】面试题常考自己百度说的更清楚关系型数据库； MySQL

2017-11-04 18:59:04 373

原创机器学习之KNN算法分析

01-简介介绍第一个机器学习算法：K-近邻算法，它非常有效而且易于掌握。kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 kNN方法在类别决策时，只与极少量的相邻样本有关。由于kNN方法主要靠周围有限的邻近的样本，而不是靠判

2017-11-01 20:13:59 674

原创数据分析之Pandas-05数据加载

01-读取文本格式数据pandas提供了一些用于将表格型数据读取为DataFrame对象的函数02-最常用read_csv：从文件中加载带分隔符的数据，默认分隔符为逗号read_table：从文件中加载带分隔符的数据，默认分隔符为制表符03-读取数据库数据导包import pandas as pdimport sqlite3读取数据con = sqlite3.connect("../data/

2017-10-31 20:34:09 312

原创数据分析之Matplotlib绘图-02

04-四图直方图n = np.random.randn(10000)#普通直方图fig,axes = plt.subplots(1,2,figsize = (12,4))axes[0].hist(n,bins = 50)axes[0].set_title('Default histogram')axes[0].set_xlim(min(n),max(n))# 累计直方图axes[1].h

2017-10-31 19:56:34 683

原创 MySql-02.查询

查询的基本语法 select * from 表名;from关键字后面写表名，表示数据来源于是这张表select后面写表中的列名，如果是*表示在结果中显示表中所有列在select后面的列名部分，可以使用as为列起别名，这个别名出现在结果集中如果要查询多个列，之间使用逗号分隔消除重复行在select后面列前使用distinct可以消除重复的行 select distinct gen

2017-10-30 22:10:09 216

原创数据分析之Matplotlib绘图-01

01-图片的灰度化处理（1）最大值法使转化后的R,G,B的值等于转化前的3个值中的最大的一个，即：R=G=B=max（R,G,B）这种转化的灰度图亮度很高im_data1 = im_data.max(axis = 2)（2）平均值法使转化后的R,G,B的值等于转化前的3个的平均值，即：R=G=B=（R+G+B）/3这种方法产生的灰度图像比较柔和。im_data2 = im_data.

2017-10-30 19:33:39 532

原创 MySql-01.创建库与表

01-数据库简介数据库简介人类在进化的过程中，创造了数字、文字、符号等来进行数据的记录，但是承受着认知能力和创造能力的提升，数据量越来越大，对于数据的记录和准确查找，成为了一个重大难题计算机诞生后，数据开始在计算机中存储并计算，并设计出了数据库系统数据库系统解决的问题：持久化存储，优化读写，保证数据的有效性当前使用的数据库，主要分为两类文档型，如sqlite，就是一个文件，通过对文件的复

2017-10-29 21:37:29 444

原创数据分析之Scipy-输入输出和图片处理

01简介Scipy依赖于NumpyScipy提供了真正的矩阵Scipy包含的功能：最优化、线性代数、积分、插值、拟合、特殊函数、快速傅里叶变换、信号处理、图像处理、常微分方程求解器等Scipy是高端科学计算工具包Scipy由一些特定功能的子模块组成02-输入输出输入：from scipy import io as spioimport numpy as npa = np.ones((

2017-10-28 22:08:22 757

原创数据分析之Pandas-03绘图函数

01-线型图简单的Series图标示例np.random.seed(0)s = Series(np.random.randn(10).cumsum(),index = np.arange(0,100,10))s.plot()简单的DataFrame图标示例np.random.seed(0)df = DataFrame(np.random.randn(10,4).cumsum(0),

2017-10-28 21:59:09 470

原创数据分析之Pandas-03多行索引和数据处理

01-多层行索引进行切片，有些汉字出问题，有些没问题02-Pandas数据处理删除重复元素df = DataFrame({'color':['white','white','red','red','white'], 'value':[2,1,3,3,2]})display(df,df.duplicated(),df.drop_duplicates())映射repl

2017-10-28 21:46:56 351

原创数据分析之Pandas-02多层次化索引和拼接

01-Pandas层次化索引创建多层索引1.隐式构造 Series也可以创建多层索引df = DataFrame(np.random.rand(4,2), index=[['a','a','b','b'],[1,2,1,2]], columns=['data1','data2'])df2.显示构造（Multilndex） - pd.Mu

2017-10-28 20:52:23 3286

原创数据分析之Pandas-01Series和DataFrame

01-什么是PandasPython Data Analysis Library 或 pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。它使Python成为强大而高效的数据分析环境的重要因素之一。02-导入它使P

2017-10-28 19:47:56 390

原创数据分析-Numpy模块

简介：Numpy：Numeric Python。 - 一个强大的N维数组对象Array - 比较成熟的（广播）函数库 - 用于整合C/C++和Fortran代码的工具包 - 实用的线性代数、傅里叶变换和随机数生成函数 - numpy和稀疏矩阵运算包scipy配合使用更加强大导入numpy库，并查看numpy版本import numpy as npnp.__version__01-创建nd

2017-10-23 20:17:47 401

原创 Jupyter高级操作

01-启动程序执行以下命令： jupyter notebook[NotebookApp] Serving notebooks from local directory: /home/nanfengpo[NotebookApp] 0 active kernels[NotebookApp] The IPython Notebook is running at: http://localhost

2017-10-23 19:30:40 3321

原创 Tornado框架09-异步02

因为epoll主要是用来解决网络IO的并发问题，所以Tornado的异步编程也主要体现在网络IO的异步上，即异步Web请求。01-tornado.httpclient.AsyncHTTPClientTornado提供了一个异步Web请求客户端tornado.httpclient.AsyncHTTPClient用来进行异步Web请求。 fetch(request, callback=None)

2017-10-21 17:33:12 408

原创 Tornado框架09-异步01

01-同步我们用两个函数来模拟两个客户端请求，并依次进行处理：# coding:utf-8def req_a(): """模拟请求a""" print '开始处理请求req_a' print '完成处理请求req_a'def req_b(): """模拟请求b""" print '开始处理请求req_b' print '完成处理请求req_b'def

2017-10-21 17:26:21 275

原创 Tornado框架07-数据库

与Django框架相比，Tornado没有自带ORM，对于数据库需要自己去适配。我们使用MySQL数据库。在Tornado3.0版本以前提供tornado.database模块用来操作MySQL数据库，而从3.0版本开始，此模块就被独立出来，作为torndb包单独提供。torndb只是对MySQLdb的简单封装，不支持Python 3。torndb安装pip install torndb连接初始化我

2017-10-21 17:16:17 918

原创 Tornado框架11-部署

为了充分利用多核CPU，并且为了减少同步代码中的阻塞影响，在部署Tornado的时候需要开启多个进程（最好为每个CPU核心开启一个进程）因为Tornado自带的服务器性能很高，所以我们只需开启多个Tornado进程。为了对外有统一的接口，并且可以分发用户的请求到不同的Tornado进程上，我们用Nginx来进行代理。 01-supervisor为了统一管理Tornado的多个进程，我们可以借助su

2017-10-20 15:58:40 608 1

原创 Tornado框架10-WebSocket

01-实时获取数据前端轮询:有无数据立即回复长轮询:没有数据改变，不做任何响应,当有数据改变时，服务器响应WebSocket02-概述WebSocket是HTML5规范中新提出的客户端-服务器通讯协议，协议本身使用新的ws://URL格式。WebSocket 是独立的、创建在 TCP 上的协议，和 HTTP 的唯一关联是使用 HTTP 协议的101状态码进行协议切换，使用的 TCP 端口是8

2017-10-19 21:48:40 383

原创 Tornado框架08-应用安全

01-Cookie普通cookie1.设置原型self.set_cookie(name,value,domain=None,expires=None,path="/",expires_days=None,**kwargs)参数属性作用 name cookie的名称 value cookie值 domain 提交cookie时匹配的域名 path 提交cook

2017-10-18 21:17:23 534

原创 Tornado框架06-模板

01-静态文件static_path引用文件配置静态文件的路径，告诉tornado从文件系统中的一个特定的位置提取静态文件使用："static_path": os.path.join(BASE_DIRS, "static")作用：引入其他文件<link rel="styl

2017-10-18 20:01:37 378

原创 Tornado框架05-输入和输出，接口调用顺序

01-利用HTTP协议向服务器传参几种途径查询字符串（query string)，形如key1=value1&key2=value2；请求体（body）中发送的数据，比如表单数据、json、xml；提取uri的特定部分，如/blogs/2016/09/0001，可以在服务器端的路由中用正则表达式截取；在http报文的头（header）中增加自定义字段，如X-XSRFToken=xiaoke

2017-10-16 19:53:00 840 1

原创 Tornado框架04-配置文件和路由

01-Applicationsettings在创建tornado.web.Application的对象时，传入了第一个参数——路由映射列表。实际上Application类的构造函数还接收很多关于tornado web应用的配置参数。debug设置debug，设置tornado是否工作在调试模式，默认为False即工作在生产模式。当设置debug=True 后，tornado会工作在调试/开发模

2017-10-16 19:52:15 1379

原创 Tornado框架03-options和日志

01-options在前面的示例中我们都是将服务端口的参数写死在程序中，很不灵活。 tornado为我们提供了一个便捷的工具，tornado.options模块——全局参数定义、存储、转换。02-tornado.options.define()用来定义options选项变量的方法，定义的变量可以在全局的tornado.options.options中获取使用，传入参数：name 选项变量名，须保

2017-10-16 19:51:48 2146

原创 Tornado框架02-创建服务器与多进程

01-httpserver修改上篇文章简单tornado案例的代码如下：import tornado.webimport tornado.ioloopimport tornado.httpserver # 新引入httpserver模块class IndexHandler(tornado.web.RequestHandler): """主路由处理类""" def get(self

2017-10-16 19:51:15 436

原创 Tornado框架01-高性能简介

01-简介Tornado全称Tornado Web Server，是一个用Python语言写成的Web服务器兼Web应用框架，由FriendFeed公司在自己的网站FriendFeed中使用，被Facebook收购以后框架在2009年9月以开源软件形式开放给大众。特点：作为Web框架，是一个轻量级的Web框架，其拥有异步非阻塞IO的处理方式。作为Web服务器，Tornado有较为出色的抗负载能力

2017-10-16 19:50:10 908 1

翻译 Django REST framework-API指南05-ViewSets 原创翻译

python技术交流群332680349，资源分享，技术交流。视图集合路由确定哪个控制器用于请求后，您的控制器负责了解请求并产生适当的输出。 …..Ruby on Rails文档Django REST框架允许您将一组相关视图的逻辑组合在一个类中，称为 ViewSet。在其他框架中，您也可以在概念上找到名为“资源”或“控制器”的类似实现。ViewSet类只是一种类型的基于类的视图，即不提供任何方法

2017-10-11 09:20:45 422

翻译 Django REST framework-API指南04-Generic views 原创翻译

python技术交流群332680349，资源分享，技术交流。类的视图Django的类视图…被开发为常见使用模式的快捷方式…他们采取在视图开发中发现的一些常见习语和模式，并将其抽象出来，以便您可以快速编写数据的常见视图，而无需重复。 —-Django文档基于类视图的主要优点之一是它们允许您组合可重用行为的方式。REST框架来利用这个优势，通过提供许多提供常用模式的预构建视图。REST框架提供的类

2017-10-09 21:26:13 1071

空空如也

空空如也