自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(48)
  • 问答 (1)
  • 收藏
  • 关注

转载 sklearn —— 标准化、归一化、正则化

一、标准化(Z-Score)公式为:(X-mean)/std 计算时对每个属性/每列分别进行。将数据按期属性(按列进行)减去其均值,并处以其方差。得到的结果是,对于每个属性/每列来说所有数据都聚集在0附近,方差为1。实现时,有两种不同的方式:1、使用sklearn.preprocessing.scale()函数,可以直接将给定数据进行标准化>>> fro...

2018-01-31 13:23:39 5992 1

原创 机器学习与统计建模 —— 归一化和标准化

归一化(Min-Max Normalization)特点1、对不同特征维度进行伸缩变换 2、改变原始数据的分布。使各个特征维度对目标函数的影响权重是一致的(即使得那些扁平分布的数据伸缩变换成类圆形) 3、对目标函数的影响体现在数值上 4、把有量纲表达式变为无量纲表达式 。好处1、提高迭代求解的收敛速度 2、提高迭代求解的精度缺点1、最大值与最小值非常容易受异常点

2018-01-31 12:24:13 7381

转载 降维

引言:机器学习领域中所谓的降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中。降维的本质是学习一个映射函数 f : x->y,其中x是原始数据点的表达,目前最多使用向量表达形式。 y是数据点映射后的低维向量表达,通常y的维度小于x的维度(当然提高维度也是可以的)。f可能是显式的或隐式的、线性的或非线性的。目前大部分降维算法处理向量表达的数据,也有一些降维算法处理高阶张量

2018-01-30 14:42:18 566

转载 性能度量和比较检验、模型评估方法

性能度量回归任务最常用的性能度量是“均方误差”错误率和精度错误率:分类错误的样本数占样本总数的比例 精度:分类正确的样本数占样本总数的比例预测类别 类别 说明 TP真正例 预测为1,实际为1的样本 TN真反例 预测为0,实际为0的样本 FP假正例 预测为1,实际为0的样本 FN假反例 预测为0,实际为1的样...

2018-01-30 14:32:17 1111

原创 机器学习 —— 基本概念

过拟合:1、定义:训练好的分类器对训练样本很好的分类,但是对测试样本的分类结果很糟糕。 2、原因:特征维度过多,导致拟合的函数完美的经过训练集,但是对新数据的预测结果则较差。 3、解决方法:减少特征维度: 可以人工选择保留的特征,或者模型选择算法;正则化:保留所有的特征,通过降低参数θ的值,来影响模型欠拟合:1、定义:分类器学习能力太差,连在训练样本上都没有很好的分类 ...

2018-01-30 11:52:37 336

转载 sklearn —— 初步应用

引言:深入理解机器学习并完全看懂sklearn文档,需要较深厚的理论基础。但是,要将sklearn应用于实际的项目中,只需要对机器学习理论有一个基本的掌握,就可以直接调用其API来完成各种机器学习问题。本文选自《全栈数据之门》,将向你介绍通过三个步骤来解决具体的机器学习问题。sklearn介绍  scikit-learn是Python语言开发的机器学习库,一般简称为sklearn,目前算是...

2018-01-30 11:26:26 848

原创 Pandas —— groupby( )聚合分组

groupbyimport pandas as pddf = pd.DataFrame({'key1':list('aabba'), 'key2': ['one','two','one','two','one'], 'data1': np.random.randn(5...

2018-01-30 10:39:21 1859

原创 Pandas —— 使用Pandas进行绘图

对于Seriesindex索引用于绘制X轴import numpy as npimport pandas as pdimport matplotlib.pyplot as plts=pd.Series(np.random.randn(10).cumsum(),index=np.arange(0,100,10))s.plot()plt.show()对于DataFra...

2018-01-30 10:14:11 4698

原创 matplotlib —— 绘制条形图,直方图,散点图和饼图

# -*- coding: UTF-8 -*-import matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签plt.rcParams['axes.unicode_minus']=False #用来正常显示负号plt.figure(1) # 创建第一个画板# 绘制条形图p...

2018-01-30 00:48:31 2855

原创 matplotlib —— subplot子图

创建subplot1、使用add_subplot( )创建In [121]: fig=plt.figure()In [122]: ax1=fig.add_subplot(2,2,1)In [123]: ax2=fig.add_subplot(2,2,2)In [124]: ax3=fig.add_subplot(2,2,3)In [125]: fig.show()...

2018-01-29 23:41:17 1916

原创 python —— 正则表达式

描述一个或多个空白符的regex是\s+:In [81]: import reIn [82]: text="foo bar\t baz \tqux"In [83]: re.split('\s+',text)Out[83]: ['foo', 'bar', 'baz', 'qux']可以用re.compile( )编译regex以得到一个可重用的regex对象In [

2018-01-29 21:56:21 229

原创 python —— 字符串方法

split( )分拆字符串In [68]: data='a,b, c'In [70]: data.split(',')Out[70]: ['a', 'b', ' c']strip( )修剪空白符In [74]: pieces=[x.strip() for x in data.split(',')]In [75]: piecesOut[75]: ['a', 'b', '

2018-01-29 21:08:40 448

原创 Pandas —— combine_first( )合并重叠数据

先创建两组数据a和bIn [62]: a=pd.Series([np.nan,2.5,np.nan,3.5,4.5,np.nan],index=['f','e','d','c','b','a'])In [63]: b=pd.Series([1,np.nan,3,4,5,np.nan],index=['f','e','d','c','b','a'])In [64]: aOut[64...

2018-01-29 18:25:09 8881

转载 Pandas —— concat( )连接

concat( )连接默认情况下concat是在axis=0上工作的,最终产生一个新的SeriesIn [29]: s1=pd.Series([0,1],index=['a','b'])In [34]: s2=pd.Series([2,3,4],index=['a','b','c'])In [35]: s1Out[35]:a 0b 1dtype: in...

2018-01-29 18:07:24 946

原创 Pandas —— merge( )合并

多对一的合并操作on参数指明连接键In [5]: df1=pd.DataFrame({'key':['b','b','a','a','b','a','c'],'data1':range(7)})In [6]: df2=pd.DataFrame({'key':['a','b','d'],'data2':range(3)})In [7]: df1Out[7]: da...

2018-01-29 17:57:07 28066 3

转载 Pandas —— 读写数据

读写文本格式的数据读取数据 函数 说明 read_csv 从文件,URL,文件型对象中加载带分隔符的数据。默认分隔符为, read_table 从文件,URL,文件型对象中加载带分隔符的数据。默认分隔符为\t read_fwf 读取定宽列格式数据(也就是说,没有分隔符) read_clipboard 读取剪贴板的数据 ...

2018-01-28 23:00:34 1022

转载 Pandas —— 广播

广播匹配列并在行上进行广播In [75]: frame=pd.DataFrame(np.arange(12).reshape((3,4)),columns=['a','b','c'],index=['A','B','C','D'])In [78]: series=frame.loc['A']In [79]: frameOut[79]: a b cA 0 1 ...

2018-01-28 11:08:36 1546

原创 Pandas —— loc( )和iloc( )

关于DataFrame的详解:http://blog.csdn.net/starter_____/article/details/79179562关于Series的详解:http://blog.csdn.net/starter_____/article/details/79179417Series的数据查看创建In [63]: people={'name':...

2018-01-28 10:45:30 625

转载 Pandas —— set_index( )将DataFrame的列转换为行索引

In [42]: frame=pd.DataFrame({'a':range(7),'b':range(7,0,-1), ...: 'c':['one','one','one','two','two','two','two'], ...: 'd':[0,1,2,0,1,2,3]})In [43]: frameOut[43]: a b c d0 0 7 ...

2018-01-28 10:26:36 10448

转载 Pandas —— 层次化索引

创建一个Seires,并用一个由列表或数组组成的列表作为索引In [29]: data=pd.Series(np.random.randn(8),index=[['a','a','a','b','b','b','c','c'],[1,2,3,1,2,3,1,2]])In [30]: dataOut[30]:a 1 -0.506962 2 0.795603 3...

2018-01-28 10:07:46 744

原创 Pandas —— 处理缺失数据dropna( )和fillna( )

dropna( )对于Serial对象丢弃带有NAN的所有项In [152]: data=pd.Series([1,np.nan,5,np.nan])In [153]: dataOut[153]:0 1.01 NaN2 5.03 NaNdtype: float64In [154]: data.dropna()Out[154]:0 ...

2018-01-28 08:49:50 26047

转载 Pandas —— 唯一值unique( ),计数值value_counts( )及成员资格isin( )

唯一值In [141]: obj=pd.Series(['c','a','d','a','a','b','b','c','c','c'])In [142]: obj.unique()Out[142]: array(['c', 'a', 'd', 'b'], dtype=object)计数值In [143]: obj.value_counts()Out[143]:c...

2018-01-27 23:30:25 117921

原创 Pandas —— 重新索引reindex( )

重新索引对Series的索引进行重新索引In [64]: import pandas as pdIn [65]: obj=pd.Series([4.5,7.2,-5.3,3.6],index=['d','b','a','c'])In [66]: objOut[66]:d 4.5b 7.2a -5.3c 3.6dtype: float64In...

2018-01-27 22:54:13 2680

原创 Pandas —— sort_value( )、sort_index( )排序

排序按索引对DataFrame或Series进行排序In [101]: frame=pd.DataFrame(np.arange(12).reshape((4,3)),columns=['c','a','b'],index=['D','B','C','A'])In [102]: frame.sort_index(axis=0)Out[102]: c a bA ...

2018-01-27 22:15:21 47141

转载 Pandas —— rank( )函数进行排名

rank( )rank函数返回从小到大排序的下标1、默认情况下,rank是通过“为各组分配一个平均排名”的方式破坏平级关系的In [120]:obj = pd.Series([7,-5,7,4,2,0,4])In [121]:obj.rank()Out [121]:0 6.51 1.02 6.53 4.54 3.05 2.06 ...

2018-01-27 21:55:02 60562 6

原创 Pandas —— DataFrame的创建、修改、访问、删除及转置

关于Series的详解:http://blog.csdn.net/starter_____/article/details/79179417创建DataFrameDataFrame是一个二维的表结构,它含有一组有序的列。DataFrame既有行索引又有列索引,它可以被看做由Series组成的字典。传递Dict对象创建DataFrame若不指定行索引,则会自动创建一个...

2018-01-27 17:07:02 8975

原创 Pandas —— Series的创建、修改、访问、删除及合并

关于DataFrame的详解:http://blog.csdn.net/starter_____/article/details/79179562Series的创建Series是一种类似于一维数组的对象,它由一组数据(value)及一组与之相关的数据标签(index)组成。传递list对象创建Series若不指定索引,则会自动创建一个0到N-1(N为数组长度)的整数...

2018-01-27 12:01:20 18103

原创 Numpy —— 常用的数据处理函数

基本数组统计函数 函数 说明 sum 对数组中全部或某轴向的元素求和。零长度的数组的sum为0 mean 算术平均数。零长度的数组的mean为NaN std,var 分别为标准差和方差,自由度可调,默认为n min,max 最小值和最大值 argmin,argmax 最小值的索引和最大值的索引 cumsum

2018-01-26 20:46:44 591

原创 Numpy —— np.meshgrid( ),np.where( )

np.meshgrid( )语法:[X,Y] = meshgrid(x,y) 作用:接受两个一维数组,并产生两个二维数组(对应于两个数组中所有的(x,y)对) (将向量x和y定义的区域转换成矩阵X和Y,其中矩阵X的行向量是向量x的简单复制,而矩阵Y的列向量是向量y的简单复制。)示例:加载数据m, n = (5, 3)x = np.linspace(0, 1, m)y

2018-01-26 20:26:04 1819 2

原创 Numpy —— 花式索引,整数索引和布尔索引

花式索引花式索引指的是利用整数数组进行索引 花式索引跟切片不一样,它总是将数据复制到新数组中1、传入顺序索引数组In [94]: arr=np.arange(32).reshape((8,4))In [95]: arrOut[95]:array([[ 0, 1, 2, 3], [ 4, 5, 6, 7], [ 8, 9, 10,

2018-01-26 18:42:36 5838 1

原创 Numpy —— 数据类型对象 (dtype)

属性dtypeIn [49]: arr=np.arange(5)In [50]: arrOut[50]: array([0, 1, 2, 3, 4])In [51]: arr.dtypeOut[51]: dtype('int32')函数dtype( )作用:结构化数组类型并加以使用语法:numpy.dtype(object, align, copy)

2018-01-26 15:47:05 27036 9

原创 Numpy —— 数组和矩阵

Numpy包含了两种基本类型:数组ndarray和矩阵matrixNumPy数组中所有元素的类型必须是相同的数组ndarray1、创建数组ndarray又叫多维数组对象,创建数组的最简单的方式就是使用array函数,它接受一切序列化的对象(包括其他数组),然后产生一个新的含有传入数据的numpy数组通过tuple构建ndarrayIn[1]: import nu

2018-01-26 12:03:20 1889

原创 python —— IPython的基本使用

IPython是一个交互式的Python解释器Tab键自动找出当前命名空间中与已输入的字符串相匹配的变量(对象,函数等)In[1]:an_apple=1In[2]:an_pear=1In[3]:anTab>Out[3]:an_apple an_pear and any内省在变量或函数的前面或后面加上一个问号(?)就可以将该对象的一切通用信息显示出来。

2018-01-26 10:52:41 1296

转载 Node.js —— Waterline的介绍和使用

一、ORM 的基本概念1、Object Relational Mapping2、将文档数据库中的一个文档,关系数据库表中的一行,映射为 JavaScript 中的一个对象3、操作对象,便可以完成对数据库的操作二、Waterline 的特点与优势1、支持大部分的主流数据库2、脱离 SQL3、使用同样的代码操作不同的数据库4、易于理解的符号5、丰富的方法6、多样

2018-01-25 23:29:34 1157

原创 python —— 参数类型及匿名函数

必备参数必备参数须以正确的顺序传入函数。调用时的数量必须和声明时的一样。调用printme()函数,你必须传入一个参数,不然会出现语法错误:def printme( str ): "打印任何传入的字符串" print str; return;#调用printme函数printme();以上实例输出结果:Traceback (most recent

2018-01-25 21:41:47 472

原创 python —— 参数传递

在 python 中,类型属于对象,变量是没有类型的:a=[1,2,3]a="Runoob"以上代码中,[1,2,3] 是 List 类型,”Runoob” 是 String 类型,而变量 a 是没有类型,她仅仅是一个对象的引用(一个指针),可以是 List 类型对象,也可以指向 String 类型对象。可更改(mutable)与不可更改(immutable)对象不可

2018-01-25 21:11:32 785

原创 python —— 字符串模板和内建函数

字符串模板from string import Templates = Template("Hi, $name! $name is learning $language")print s.substitute(name="Wilber", language="Python")# 用$$表示$符号s = Template("This book ($bname) is 17$$")

2018-01-25 16:30:58 1046

原创 python —— 数据结构(字符串,元组,列表,字典,集合)

Python 标识符1、标识符由字母、数字、下划线组成。2、所有标识符可以包括英文、数字以及下划线(_),但不能以数字开头。3、标识符是区分大小写的。4、以单下划线开头 _foo 的代表不能直接访问的类属性,需通过类提供的接口进行访问,不能用 from xxx import * 而导入;5、以双下划线开头的 __foo 代表类的私有成员;6、以双下划线开头和结尾的_ _ f

2018-01-25 12:08:38 561

转载 微信小程序 —— wxss设置样式

对于以前搞客户端开发的来说,有着客户端的逻辑,就是不知道怎么设置样式,把对应的控件显示出来一、wxml界面结构wxmL比较容易理解,主要是由八大类基础组件构成: 一、视图容器(View Container):二、基础内容(Basic Content)组件名说明组件名说明view视图容器icon 图标scroll-view可滚动视图容器text

2018-01-19 12:34:55 11351

原创 微信小程序 —— 页面的跳转和数据传递

一、wx.navigateTotext bindtap='btnClick'> 使用 wx.navigateTo()跳转 text>btnClick: function () { wx.navigateTo({ url: '../event/event', }) },二、navigator组件navigator url='../event

2018-01-19 09:08:41 572

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除