2018年01月_starter_zheng

转载 sklearn —— 标准化、归一化、正则化

一、标准化（Z-Score）公式为：(X-mean)/std 计算时对每个属性/每列分别进行。将数据按期属性（按列进行）减去其均值，并处以其方差。得到的结果是，对于每个属性/每列来说所有数据都聚集在0附近，方差为1。实现时，有两种不同的方式：1、使用sklearn.preprocessing.scale()函数，可以直接将给定数据进行标准化>>> fro...

2018-01-31 13:23:39 5992 1

原创机器学习与统计建模 —— 归一化和标准化

归一化（Min-Max Normalization）特点1、对不同特征维度进行伸缩变换 2、改变原始数据的分布。使各个特征维度对目标函数的影响权重是一致的（即使得那些扁平分布的数据伸缩变换成类圆形） 3、对目标函数的影响体现在数值上 4、把有量纲表达式变为无量纲表达式。好处1、提高迭代求解的收敛速度 2、提高迭代求解的精度缺点1、最大值与最小值非常容易受异常点

2018-01-31 12:24:13 7381

转载降维

引言：机器学习领域中所谓的降维就是指采用某种映射方法，将原高维空间中的数据点映射到低维度的空间中。降维的本质是学习一个映射函数 f : x->y，其中x是原始数据点的表达，目前最多使用向量表达形式。 y是数据点映射后的低维向量表达，通常y的维度小于x的维度（当然提高维度也是可以的）。f可能是显式的或隐式的、线性的或非线性的。目前大部分降维算法处理向量表达的数据，也有一些降维算法处理高阶张量

2018-01-30 14:42:18 566

转载性能度量和比较检验、模型评估方法

性能度量回归任务最常用的性能度量是“均方误差”错误率和精度错误率：分类错误的样本数占样本总数的比例精度：分类正确的样本数占样本总数的比例预测类别类别说明 TP真正例预测为1，实际为1的样本 TN真反例预测为0，实际为0的样本 FP假正例预测为1，实际为0的样本 FN假反例预测为0，实际为1的样...

2018-01-30 14:32:17 1111

原创机器学习 —— 基本概念

过拟合：1、定义：训练好的分类器对训练样本很好的分类，但是对测试样本的分类结果很糟糕。 2、原因：特征维度过多，导致拟合的函数完美的经过训练集，但是对新数据的预测结果则较差。 3、解决方法：减少特征维度：可以人工选择保留的特征，或者模型选择算法；正则化：保留所有的特征，通过降低参数θ的值，来影响模型欠拟合：1、定义：分类器学习能力太差，连在训练样本上都没有很好的分类 ...

2018-01-30 11:52:37 336

转载 sklearn —— 初步应用

引言：深入理解机器学习并完全看懂sklearn文档，需要较深厚的理论基础。但是，要将sklearn应用于实际的项目中，只需要对机器学习理论有一个基本的掌握，就可以直接调用其API来完成各种机器学习问题。本文选自《全栈数据之门》，将向你介绍通过三个步骤来解决具体的机器学习问题。sklearn介绍　　scikit-learn是Python语言开发的机器学习库，一般简称为sklearn，目前算是...

2018-01-30 11:26:26 848

原创 Pandas —— groupby( )聚合分组

groupbyimport pandas as pddf = pd.DataFrame({'key1':list('aabba'), 'key2': ['one','two','one','two','one'], 'data1': np.random.randn(5...

2018-01-30 10:39:21 1859

原创 Pandas —— 使用Pandas进行绘图

对于Seriesindex索引用于绘制X轴import numpy as npimport pandas as pdimport matplotlib.pyplot as plts=pd.Series(np.random.randn(10).cumsum(),index=np.arange(0,100,10))s.plot()plt.show()对于DataFra...

2018-01-30 10:14:11 4698

原创 matplotlib —— 绘制条形图，直方图，散点图和饼图

# -*- coding: UTF-8 -*-import matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签plt.rcParams['axes.unicode_minus']=False #用来正常显示负号plt.figure(1) # 创建第一个画板# 绘制条形图p...

2018-01-30 00:48:31 2855

原创 matplotlib —— subplot子图

创建subplot1、使用add_subplot( )创建In [121]: fig=plt.figure()In [122]: ax1=fig.add_subplot(2,2,1)In [123]: ax2=fig.add_subplot(2,2,2)In [124]: ax3=fig.add_subplot(2,2,3)In [125]: fig.show()...

2018-01-29 23:41:17 1916

原创 python —— 正则表达式

描述一个或多个空白符的regex是\s+：In [81]: import reIn [82]: text="foo bar\t baz \tqux"In [83]: re.split('\s+',text)Out[83]: ['foo', 'bar', 'baz', 'qux']可以用re.compile( )编译regex以得到一个可重用的regex对象In [

2018-01-29 21:56:21 229

原创 python —— 字符串方法

split( )分拆字符串In [68]: data='a,b, c'In [70]: data.split(',')Out[70]: ['a', 'b', ' c']strip( )修剪空白符In [74]: pieces=[x.strip() for x in data.split(',')]In [75]: piecesOut[75]: ['a', 'b', '

2018-01-29 21:08:40 448

原创 Pandas —— combine_first( )合并重叠数据

先创建两组数据a和bIn [62]: a=pd.Series([np.nan,2.5,np.nan,3.5,4.5,np.nan],index=['f','e','d','c','b','a'])In [63]: b=pd.Series([1,np.nan,3,4,5,np.nan],index=['f','e','d','c','b','a'])In [64]: aOut[64...

2018-01-29 18:25:09 8881

转载 Pandas —— concat( )连接

concat( )连接默认情况下concat是在axis=0上工作的，最终产生一个新的SeriesIn [29]: s1=pd.Series([0,1],index=['a','b'])In [34]: s2=pd.Series([2,3,4],index=['a','b','c'])In [35]: s1Out[35]:a 0b 1dtype: in...

2018-01-29 18:07:24 946

原创 Pandas —— merge( )合并

多对一的合并操作on参数指明连接键In [5]: df1=pd.DataFrame({'key':['b','b','a','a','b','a','c'],'data1':range(7)})In [6]: df2=pd.DataFrame({'key':['a','b','d'],'data2':range(3)})In [7]: df1Out[7]: da...

2018-01-29 17:57:07 28066 3

转载 Pandas —— 读写数据

读写文本格式的数据读取数据函数说明 read_csv 从文件，URL，文件型对象中加载带分隔符的数据。默认分隔符为, read_table 从文件，URL，文件型对象中加载带分隔符的数据。默认分隔符为\t read_fwf 读取定宽列格式数据（也就是说，没有分隔符） read_clipboard 读取剪贴板的数据 ...

2018-01-28 23:00:34 1022

转载 Pandas —— 广播

广播匹配列并在行上进行广播In [75]: frame=pd.DataFrame(np.arange(12).reshape((3,4)),columns=['a','b','c'],index=['A','B','C','D'])In [78]: series=frame.loc['A']In [79]: frameOut[79]: a b cA 0 1 ...

2018-01-28 11:08:36 1546

原创 Pandas —— loc( )和iloc( )

关于DataFrame的详解：http://blog.csdn.net/starter_____/article/details/79179562关于Series的详解：http://blog.csdn.net/starter_____/article/details/79179417Series的数据查看创建In [63]: people={'name':...

2018-01-28 10:45:30 625

转载 Pandas —— set_index( )将DataFrame的列转换为行索引

In [42]: frame=pd.DataFrame({'a':range(7),'b':range(7,0,-1), ...: 'c':['one','one','one','two','two','two','two'], ...: 'd':[0,1,2,0,1,2,3]})In [43]: frameOut[43]: a b c d0 0 7 ...

2018-01-28 10:26:36 10448

转载 Pandas —— 层次化索引

创建一个Seires，并用一个由列表或数组组成的列表作为索引In [29]: data=pd.Series(np.random.randn(8),index=[['a','a','a','b','b','b','c','c'],[1,2,3,1,2,3,1,2]])In [30]: dataOut[30]:a 1 -0.506962 2 0.795603 3...

2018-01-28 10:07:46 744

原创 Pandas —— 处理缺失数据dropna( )和fillna( )

dropna( )对于Serial对象丢弃带有NAN的所有项In [152]: data=pd.Series([1,np.nan,5,np.nan])In [153]: dataOut[153]:0 1.01 NaN2 5.03 NaNdtype: float64In [154]: data.dropna()Out[154]:0 ...

2018-01-28 08:49:50 26047

转载 Pandas —— 唯一值unique( )，计数值value_counts( )及成员资格isin( )

唯一值In [141]: obj=pd.Series(['c','a','d','a','a','b','b','c','c','c'])In [142]: obj.unique()Out[142]: array(['c', 'a', 'd', 'b'], dtype=object)计数值In [143]: obj.value_counts()Out[143]:c...

2018-01-27 23:30:25 117921

原创 Pandas —— 重新索引reindex( )

重新索引对Series的索引进行重新索引In [64]: import pandas as pdIn [65]: obj=pd.Series([4.5,7.2,-5.3,3.6],index=['d','b','a','c'])In [66]: objOut[66]:d 4.5b 7.2a -5.3c 3.6dtype: float64In...

2018-01-27 22:54:13 2680

原创 Pandas —— sort_value( )、sort_index( )排序

排序按索引对DataFrame或Series进行排序In [101]: frame=pd.DataFrame(np.arange(12).reshape((4,3)),columns=['c','a','b'],index=['D','B','C','A'])In [102]: frame.sort_index(axis=0)Out[102]: c a bA ...

2018-01-27 22:15:21 47141

转载 Pandas —— rank( )函数进行排名

rank( )rank函数返回从小到大排序的下标1、默认情况下，rank是通过“为各组分配一个平均排名”的方式破坏平级关系的In [120]:obj = pd.Series([7,-5,7,4,2,0,4])In [121]:obj.rank()Out [121]:0 6.51 1.02 6.53 4.54 3.05 2.06 ...

2018-01-27 21:55:02 60562 6

原创 Pandas —— DataFrame的创建、修改、访问、删除及转置

关于Series的详解：http://blog.csdn.net/starter_____/article/details/79179417创建DataFrameDataFrame是一个二维的表结构，它含有一组有序的列。DataFrame既有行索引又有列索引，它可以被看做由Series组成的字典。传递Dict对象创建DataFrame若不指定行索引，则会自动创建一个...

2018-01-27 17:07:02 8975

原创 Pandas —— Series的创建、修改、访问、删除及合并

关于DataFrame的详解：http://blog.csdn.net/starter_____/article/details/79179562Series的创建Series是一种类似于一维数组的对象，它由一组数据(value)及一组与之相关的数据标签(index)组成。传递list对象创建Series若不指定索引，则会自动创建一个0到N-1（N为数组长度）的整数...

2018-01-27 12:01:20 18103

原创 Numpy —— 常用的数据处理函数

基本数组统计函数函数说明 sum 对数组中全部或某轴向的元素求和。零长度的数组的sum为0 mean 算术平均数。零长度的数组的mean为NaN std,var 分别为标准差和方差，自由度可调，默认为n min,max 最小值和最大值 argmin,argmax 最小值的索引和最大值的索引 cumsum

2018-01-26 20:46:44 591

原创 Numpy —— np.meshgrid( )，np.where( )

np.meshgrid( )语法：[X,Y] = meshgrid(x,y) 作用：接受两个一维数组，并产生两个二维数组（对应于两个数组中所有的（x,y）对）（将向量x和y定义的区域转换成矩阵X和Y,其中矩阵X的行向量是向量x的简单复制，而矩阵Y的列向量是向量y的简单复制。）示例：加载数据m, n = (5, 3)x = np.linspace(0, 1, m)y

2018-01-26 20:26:04 1819 2

原创 Numpy —— 花式索引，整数索引和布尔索引

花式索引花式索引指的是利用整数数组进行索引花式索引跟切片不一样，它总是将数据复制到新数组中1、传入顺序索引数组In [94]: arr=np.arange(32).reshape((8,4))In [95]: arrOut[95]:array([[ 0, 1, 2, 3], [ 4, 5, 6, 7], [ 8, 9, 10,

2018-01-26 18:42:36 5838 1

原创 Numpy —— 数据类型对象 (dtype)

属性dtypeIn [49]: arr=np.arange(5)In [50]: arrOut[50]: array([0, 1, 2, 3, 4])In [51]: arr.dtypeOut[51]: dtype('int32')函数dtype( )作用：结构化数组类型并加以使用语法：numpy.dtype(object, align, copy)

2018-01-26 15:47:05 27036 9

原创 Numpy —— 数组和矩阵

Numpy包含了两种基本类型：数组ndarray和矩阵matrixNumPy数组中所有元素的类型必须是相同的数组ndarray1、创建数组ndarray又叫多维数组对象，创建数组的最简单的方式就是使用array函数，它接受一切序列化的对象（包括其他数组），然后产生一个新的含有传入数据的numpy数组通过tuple构建ndarrayIn[1]: import nu

2018-01-26 12:03:20 1889

原创 python —— IPython的基本使用

IPython是一个交互式的Python解释器Tab键自动找出当前命名空间中与已输入的字符串相匹配的变量（对象，函数等）In[1]：an_apple=1In[2]：an_pear=1In[3]：anTab>Out[3]：an_apple an_pear and any内省在变量或函数的前面或后面加上一个问号（？）就可以将该对象的一切通用信息显示出来。

2018-01-26 10:52:41 1296

转载 Node.js —— Waterline的介绍和使用

一、ORM 的基本概念1、Object Relational Mapping2、将文档数据库中的一个文档，关系数据库表中的一行，映射为 JavaScript 中的一个对象3、操作对象，便可以完成对数据库的操作二、Waterline 的特点与优势1、支持大部分的主流数据库2、脱离 SQL3、使用同样的代码操作不同的数据库4、易于理解的符号5、丰富的方法6、多样

2018-01-25 23:29:34 1157

原创 python —— 参数类型及匿名函数

必备参数必备参数须以正确的顺序传入函数。调用时的数量必须和声明时的一样。调用printme()函数，你必须传入一个参数，不然会出现语法错误：def printme( str ): "打印任何传入的字符串" print str; return;#调用printme函数printme();以上实例输出结果：Traceback (most recent

2018-01-25 21:41:47 472

原创 python —— 参数传递

在 python 中，类型属于对象，变量是没有类型的：a=[1,2,3]a="Runoob"以上代码中，[1,2,3] 是 List 类型，”Runoob” 是 String 类型，而变量 a 是没有类型，她仅仅是一个对象的引用（一个指针），可以是 List 类型对象，也可以指向 String 类型对象。可更改(mutable)与不可更改(immutable)对象不可

2018-01-25 21:11:32 785

原创 python —— 字符串模板和内建函数

字符串模板from string import Templates = Template("Hi, $name! $name is learning $language")print s.substitute(name="Wilber", language="Python")# 用$$表示$符号s = Template("This book ($bname) is 17$$")

2018-01-25 16:30:58 1046

原创 python —— 数据结构（字符串，元组，列表，字典，集合）

Python 标识符1、标识符由字母、数字、下划线组成。2、所有标识符可以包括英文、数字以及下划线(_)，但不能以数字开头。3、标识符是区分大小写的。4、以单下划线开头 _foo 的代表不能直接访问的类属性，需通过类提供的接口进行访问，不能用 from xxx import * 而导入；5、以双下划线开头的 __foo 代表类的私有成员；6、以双下划线开头和结尾的_ _ f

2018-01-25 12:08:38 561

转载微信小程序 —— wxss设置样式

对于以前搞客户端开发的来说，有着客户端的逻辑，就是不知道怎么设置样式，把对应的控件显示出来一、wxml界面结构wxmL比较容易理解，主要是由八大类基础组件构成：一、视图容器(View Container)：二、基础内容(Basic Content)组件名说明组件名说明view视图容器icon 图标scroll-view可滚动视图容器text

2018-01-19 12:34:55 11351

原创微信小程序 —— 页面的跳转和数据传递

一、wx.navigateTotext bindtap='btnClick'> 使用 wx.navigateTo()跳转 text>btnClick: function () { wx.navigateTo({ url: '../event/event', }) },二、navigator组件navigator url='../event

2018-01-19 09:08:41 572

空空如也

在32位字长的计算机中，double变量如何进行大端存储和小端存储？