alujdh6172-CSDN博客

转载 SVM算法总结

svm算法通俗的理解在二维上，就是找一分割线把两类分开，问题是如下图三条颜色都可以把点和星划开，但哪条线是最优的呢，这就是我们要考虑的问题；首先我们先假设一条直线为 W•X+b =0 为最优的分割线，把两类分开如下图所示，那我们就要解决的是怎么获取这条最优直线呢?及W 和 b 的值；在SVM中最优分割面(超平面)就是：能使支持向量和超平面最小距离的最大值；我们的目标是寻...

2018-02-03 09:52:00 182

转载 python核心模块方法

********************os模块: os.remove() 删除文件 os.unlink() 删除文件 os.rename() 重命名文件 os.listdir() 列出指定目录下所有文件 os.chdir() 改变当前工作目录 os.getcwd(...

2018-02-03 09:33:00 122

转载 Python的装饰器

Python中的装饰器是你进入Python大门的一道坎，不管你跨不跨过去它都在那里。为什么需要装饰器我们假设你的程序实现了say_hello()和say_goodbye()两个函数。def say_hello(): print "hello!" def say_goodbye(): print "hello!" # bug he...

2018-02-03 09:30:00 124

转载透视表和交叉表

import numpy as npimport pandas as pdfrom pandas import Series,DataFramedf = DataFrame({'sex':['man','man','women','wom...

2018-01-26 19:38:00 149

转载 matplotlib常用操作2

关于matplotlib学习还是强烈建议常去官方http://matplotlib.org/contents.html里查一查各种用法和toturial等。下面是jupyter notebook代码导出的md文件。Plotting and Visualizationfrom __future__ import divisionfrom numpy.random import...

2018-01-18 20:59:00 197

转载 matplotlib 常用操作

标准的Python中用列表(list)保存一组值，可以当作数组使用。但由于列表的元素可以是任何对象，因此列表中保存的是对象的指针。这样一来，为了保存一个简单的列表[1,2,3]，就需要有三个指针和三个整数对象。对于数值运算来说，这种结构显然比较浪费内存和 CPU 计算时间。使用numpy的array模块可以解决这个问题。细节不在此赘述。这里主要记录一些matplotlib的基本使用...

2018-01-18 20:53:00 104

转载 pandas总结

### 一.创建对象 # 1.可以通过传递一个list对象来创建一个Series，pandas会默认创建整型索引：# s=pd.Series([1,3,5,np.nan,6,8])# print(s)# # 2.通过传递一个numpy array，时间索引以及列标签来创建一个DataFrame：# dates=pd.date_range('20130101',p...

2018-01-18 20:48:00 103

转载朴素贝叶斯算法python实现

朴素贝叶斯是一种十分简单的分类算法，称其朴素是因为其思想基础的简单性，就文本分类而言，他认为词袋中的两两词之间的关系是相互独立的，即一个对象的特征向量中的每个维度都是互相独立的。这是朴素贝叶斯理论的思想基础。朴素贝叶斯分类的正式定义：设x={}为一个待分类项，而每个a为x的一个特征属性有类别集合C={}计算P(|x)，P(|x)，…，P(|x)如果P(|x)=ma...

2018-01-17 19:02:00 389

转载 python数据挖掘决策树算法

决策树是一个非参数的监督式学习方法，主要用于分类和回归。算法的目标是通过推断数据特征，学习决策规则从而创建一个预测目标变量的模型。如下如所示，决策树通过一系列if-then-else 决策规则近似估计一个正弦曲线。决策树优势：简单易懂，原理清晰，决策树可以实现可视化数据准备简单。其他的方法需要实现数据归一化，创建虚拟变量，删除空白变量。(注意：这个模块不支持缺失值)...

2018-01-17 18:54:00 231

转载基于Python使用scrapy-redis框架实现分布式爬虫

1.首先介绍一下：scrapy-redis框架　　　　　　scrapy-redis：一个三方的基于redis的分布式爬虫框架，配合scrapy使用，让爬虫具有了分布式爬取的功能。github地址：https://github.com/darkrho/scrapy-redis，mongodb 、mysql 或其他数据库：针对不同类型数据可以根据具体需求来选择不同的数据库存储。结...

2018-01-15 20:58:00 191

转载 Sklearn-train_test_split随机划分训练集和测试集

klearn.model_selection.train_test_split随机划分训练集和测试集官网文档：http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html#sklearn.model_selection.train_test_split...

2018-01-15 20:54:00 276

转载 python写入csv方法总结

最常用的一种方法，利用pandas包import pandas as pd#任意的多组列表a = [1,2,3]b = [4,5,6] #字典中的key值即为csv中列名dataframe = pd.DataFrame({'a_name':a,'b_name':b})#将DataFrame存储为csv,index表示是否显示行名，defaul...

2018-01-15 20:51:00 189

转载 numpy基本方法总结

NumPy基本方法一、数组方法创建数组：arange()创建一维数组；array()创建一维或多维数组，其参数是类似于数组的对象，如列表等读取数组元素：如a[0],a[0,0]数组变形：如b=a.reshape(2,3,4)将得到原数组变为2*3*4的三维数组后的数组；或是a.shape=(2,3,4)或a.resize(2,3,4)直接改变数组a的形状数组组...

2018-01-15 20:47:00 130

转载线性回归算法

回归是指利用样本（已知数据），产生拟合方程，从而对（未知数据）进行预测。用途：预测、判别合理性。困难：①选定变量（多元）；②避免多重共线性；③观察拟合方程，避免过度拟合；④检验模型的合理性。因变量与自变量的关系：①相关关系（非确定性关系，比如物理与化学成绩相关性），使用相关系数衡量线性相关性的强弱；②函数关系（确定性关系）相关系数求解：Pearson样本积矩相关...

2018-01-15 20:45:00 139

转载 kNN算法

一、算法概述1、kNN算法又称为k近邻分类(k-nearest neighbor classification)算法。最简单平凡的分类器也许是那种死记硬背式的分类器，记住所有的训练数据，对于新的数据则直接和训练数据匹配，如果存在相同属性的训练数据，则直接用它的分类来作为新数据的分类。这种方式有一个明显的缺点，那就是很可能无法找到完全匹配的训练记录。kNN算法则是从训练集中找到和新数据最接...

2018-01-15 20:26:00 124

转载 K-Means聚类算法

聚类分析是在数据中发现数据对象之间的关系，将数据进行分组，组内的相似性越大，组间的差别越大，则聚类效果越好。不同的簇类型聚类旨在发现有用的对象簇，在现实中我们用到很多的簇的类型，使用不同的簇类型划分数据的结果是不同的，如下的几种簇类型。明显分离的可以看到(a)中不同组中任意两点之间的距离都大于组内任意两点之间的距离，明显分离的簇不一定是球形的，可以具有任意的形状。...

2018-01-15 20:15:00 207

转载 Scrapy教程——搭建环境、创建项目、爬取内容、保存文件

1、创建项目在开始爬取之前，您必须创建一个新的Scrapy项目。进入您打算存储代码的目录中，运行新建命令。例如，我需要在D:\00Coding\Python\scrapy目录下存放该项目，打开命令窗口，进入该目录，执行以下命令：scrapy startproject tutorialPS:tutorial可以替换成任何你喜欢的名称，最好是英文 ...

2018-01-03 13:54:00 251

转载 Flask+uwsgi+Nginx+Ubuntu部署教程

学习 Flask，写完一个 Flask 应用需要部署的时候，就想着折腾自己的服务器。根据搜索的教程照做，对于原理一知半解，磕磕碰碰，只要运行起来了，谢天谢地然后不再折腾了，到下一次还需要部署时，这样的过程就会重复一次。不知道多少人的膝盖中箭了呢？我也这样干过，这么做确实很蠢，所以我决定写一篇 Flask+uwsgi+Nginx+Ubuntu 的部署教程，解答一些我自己在这个过程中的疑问，...

2018-01-03 13:49:00 149

转载 Django + Uwsgi + Nginx 的生产环境部署

使用runserver可以使我们的django项目很便捷的在本地运行起来，但这只能在局域网内访问，如果在生产环境部署django，就要多考虑一些问题了。比如静态文件处理，安全，效率等等，本篇文章总结归纳了一下基于uwsgi+Nginx下django项目生产环境的部署准备条件：121.确保有一个能够用runserver正常启动的dja...

2018-01-03 13:41:00 82

转载 Python3.6下scrapy框架的安装

首先考虑使用最简单的方法安装pipinstallscrapy命令安装，提示Failed building wheel for TwistedMicrosoft Visual C++ 14.0 is required...于是开始问度娘应该怎样安装，看了几篇博客，虽然和我的问题不十分相同，但是也受到了启发，知道应该怎样解决我的问题了。解决问题的过程总...

2018-01-03 13:36:00 66

转载 linux yum 安装mysql

1、安装查看有没有安装过：yum list installedMySQL*rpm -qa | grep mysql*查看有没有安装包：yum list mysql*安装mysql客户端：yum install mysql安装mysql 服务器端：yum install mysql-server yuminstall mysql-...

2018-01-03 12:57:00 96

转载 python模块

http://egon09.blog.51cto.com/9161406/1840425一：内建模块time和datetime（http://www.jb51.net/article/49326.htm）在Python中，通常有这几种方式来表示时间：1）时间戳 2）格式化的时间字符串 3）元组（struct_time）共九个元素。由于Python的time模块...

2017-05-31 14:13:00 89

转载迭代器&生成器

迭代器迭代器是访问集合元素的一种方式。迭代器对象从集合的第一个元素开始访问，直到所有的元素被访问完结束。迭代器只能往前不会后退，不过这也没什么，因为人们很少在迭代途中往后退。另外，迭代器的一大优点是不要求事先准备好整个迭代过程中所有的元素。迭代器仅仅在迭代到某个元素时才计算该元素，而在这之前或之后，元素可以不存在或者被销毁。这个特点使得它特别适合用于遍历一些巨大的或是无限的集合，比如...

2017-05-27 09:14:00 78

转载 python装饰器

一:函数调用顺序：其他高级语言类似,Python 不允许在函数未声明之前,对其进行引用或者调用二：高阶函数满足下列条件之一就可成函数为高阶函数某一函数当做参数传入另一个函数中函数的返回值包含n个函数,n>0三：内嵌函数和变量作用域：定义：在一个函数体内创建另外一个函数，这种函数就叫内嵌函数(基于python支持静态嵌套域)四：闭包...

2017-05-25 09:49:00 102

转载字符串操作

特性：不可修改name.capitalize() 首字母大写name.casefold() 大写全部变小写name.center(50,"-") 输出 '---------------------Alex Li----------------------'name.count('lex') 统计 lex出现次数name.encode() 将字符串编码成byt...

2017-05-24 09:54:00 66

转载字典操作

info = { 'stu1101': "TengLan Wu", 'stu1102': "LongZe Luola", 'stu1103': "XiaoZe Maliya",}字典的特性：dict是无序的key必须是唯一的,so 天生去重增加info["stu1104"] = "苍井空"修改info['stu1101'] = "武藤兰"删除...

2017-05-24 09:48:00 124

转载集合操作

集合是一个无序的，不重复的数据组合，它的主要作用如下：去重，把一个列表变成集合，就自动去重了关系测试，测试两组数据之前的交集、差集、并集等关系常用操作s = set([3,5,9,10]) #创建一个数值集合 t = set("Hello") #创建一个唯一字符的集合 a = t | s ...

2017-05-24 09:41:00 63

转载字符编码与转码

1.在python2默认编码是ASCII, python3里默认是unicode2.unicode 分为 utf-32(占4个字节),utf-16(占两个字节)，utf-8(占1-4个字节)， so utf-16就是现在最常用的unicode版本，不过在文件里存的还是utf-8，因为utf8省空间3.在py3中encode,在转码的同时还会把string 变成bytes类型，d...

2017-05-24 09:35:00 69

转载文件操作

对文件操作流程打开文件，得到文件句柄并赋值给一个变量通过句柄对文件进行操作关闭文件打开文件的模式有：r，只读模式（默认）。w，只写模式。【不可读；不存在则创建；存在则删除内容；】a，追加模式。【可读；不存在则创建；存在则只追加内容；】"+" 表示可以同时读写某个文件r+，可读写文件。【可读；可写；可追加】w+，写读a+...

2017-05-23 08:41:00 62

转载接口测试

一、什么是接口测试接口可以分下面几种　　1、系统与系统之间的调用，比如银行会提供接口供电子商务网站调用，或者说，支付宝会提供接口给淘宝调用。　　2、上层服务对下层服务的调用，比如service层会调用DAO层的接口，而应用层又会调用服务层提供的接口，一般会通过。　　3、服务之间的调用，比如注册用户时，会先调用用户查询的服务，查看该用户是否已经注册。而我们所要做的接口测试，先要了解是基于...

2017-05-23 08:30:00 80

转载列表、元组操作

列表是我们最以后最常用的数据类型之一，通过列表可以对数据实现最方便的存储、修改等操作>>> names = ["Alex","Tenglan","Eric","Rain","Tom","Amy"]>>> names[1:4] #取下标1至下标4之间的数字，包括1，不包括4['Tenglan', 'Eric', 'Rain']>&...

2017-05-23 08:27:00 111

alujdh6172的博客