2018年04月_BQW_

原创训练集、测试集和验证集(使用sklearn进行划分)

一、训练集和测试集1. 概念我们训练机器学习模型，目的是使用已有数据来预测未知的数据，通常我们称模型对未知数据的预测能力称为泛化能力。为了评估一个模型的泛化能力，通常我们会将数据分成训练集和测试集，训练集用来训练模型，测试集用来评估模型的泛化能力。2. 使用sklearn划分训练集和测试集from sklearn.model_selection import train_te...

2018-04-21 22:27:35 41622 1

原创 Pandas：透视表(pivotTab)和交叉表(crossTab)

import numpy as npimport pandas as pdfrom pandas import Series,DataFrame一、透视表(pivotTab)透视表就是将指定原有DataFrame的列分别作为行索引和列索引，然后对指定的列应用聚集函数(默认情况下式mean函数)。df = DataFrame({'类别':['水果','水果','水果','蔬菜...

2018-04-20 11:04:05 42499 1

原创 Pandas：apply的三个应用案例

import numpy as npimport pandas as pdfrom pandas import Series,DataFrame一、使用cut或qcut进行分组，然后在分组上apply1.cutdf = DataFrame({'data1':np.random.randn(1000), 'data2':np.rando...

2018-04-20 10:40:37 3572

原创 Pandas：分组级的运算和转换--transform和apply

import numpy as npimport pandas as pdfrom pandas import Series,DataFrame一、介绍聚集函数只是将一组值转换为一个标量值，其实还可以将更多类型的函数应用到分组上，下面的transform和apply就提供这样的功能。二、transformtransform中传入的函数只能返回两种结果，可以广播的标量值或...

2018-04-19 22:03:48 5594

原创 Pandas：GroupBy中的数据聚集

import numpy as npimport pandas as pdfrom pandas import Series,DataFrame一、聚集函数1.聚集函数就是一种将一组数转换为一个标量值的函数2.经过优化的groupby聚集函数函数名说明 count 分组中非NA值的数量 sum 非NA值的和 mean...

2018-04-19 21:16:32 4609

原创 Pandas：GroupBy--对分组进行迭代

import pandas as pdimport numpy as npfrom pandas import Series,DataFramedf = DataFrame({'key1':['a','a','b','b','a'], 'key2':['one','two','one','two','one'], 'data1':n...

2018-04-18 23:28:23 5970

原创 Pandas：GroupBy的七种方式

import numpy as npimport pandas as pdfrom pandas import Series,DataFrame一、GroupBy的介绍groupby就是将DataFrame按照指定的列进行分组,然后在每个组上应用函数进行映射，最后将映射的结果进行合并。Pandas中的groupby只是返回GroupBy对象，它只是记录了关于分组的信息，并不进行...

2018-04-18 23:02:07 9490

原创 Python字符串操作

一、Python内置字符串方法汇总方法说明 count 返回子串在字符串中出现次数 endswith、startswith 如果字符串以某个后缀结尾（或开头），则返回True join 将字符串用作连接其他字符串序列的分隔符 index 如果在字符串中找到子串，则返回子串第一个字符所在的位置。如果没有找到，则引发ValueErr...

2018-04-17 01:38:00 4398

原创 Pandas：重塑(stack)和轴向旋转(pivot)

import numpy as npimport pandas as pdfrom pandas import Series,DataFrame一、重塑 stack:将数据的列索引旋转为行索引 unstack:将数据的行索引旋转为列索引df = DataFrame({'水果':['苹果','梨','草莓'], '数量':[3,4...

2018-04-16 23:24:33 10397

原创 Pandas：类别变量向量化--get_dummies

import numpy as npimport pandas as pdfrom pandas import Series,DataFrame一、向量化df = DataFrame({'key':['b','b','a','c','a','b'], 'data1':range(6)})print(df) data1 key0 ...

2018-04-16 18:58:26 12062

原创 Pandas：随机重排列和随机采样--permutation和take

import numpy as npimport pandas as pdfrom pandas import Series,DataFrame一、随机重排列df = DataFrame({'水果':['苹果','梨','草莓'], '价格':[7,8,9], '数量':[3,4,5]})print(df) ...

2018-04-16 18:46:19 13851 1

原创 Pandas：数据的离散化

import numpy as npimport pandas as pdfrom pandas import Series,DataFrame一、cut的使用将ages按照“18到25”、“26到35”、“35到60”以及“60以上”进行划分ages = [20,22,25,27,21,23,37,31,61,45,41,32]bins = [18,25,35,60,1...

2018-04-16 18:17:22 5135 2

原创 Pandas：重命名各个轴上的索引--rename

import numpy as npimport pandas as pdfrom pandas import Series,DataFrame一、使用索引的map函数df = DataFrame(np.arange(12).reshape(3,4),index=['apple','pear','strawberry'],columns=['a','b','c','d'])p...

2018-04-16 18:01:40 3729

原创 Pandas：值替换--replace

import numpy as npimport pandas as pdfrom pandas import Series,DataFrame一、replace的使用s = Series([1,2,3,4,5,6])s.replace(6,100)0 11 22 33 44 55 100dtype...

2018-04-16 17:49:41 9721

原创 Pandas：利用函数或字典进行数据转换--map

import numpy as npimport pandas as pdfrom pandas import Series,DataFrame一、利用字典进行映射df = DataFrame({'食物':['苹果','橘子','黄瓜','番茄','五花肉'], '价格':[7,5,4,3,12], '数量':[5,8...

2018-04-16 17:42:13 5885

原创 Pandas：移除重复数据

import pandas as pdimport numpy as npfrom pandas import Series,DataFrame一、unique：只能应该与Seriess = Series(['a','b','a','c','b'])s.unique()array(['a', 'b', 'c'], dtype=object)二、drop_dupl...

2018-04-16 17:12:38 3488

原创 Pandas：连接数据集--concat

import numpy as npimport pandas as pdfrom pandas import Series,DataFrame一、Numpy数组的连接–concatenatea = np.arange(6).reshape(2,3)aarray([[0, 1, 2], [3, 4, 5]])1.垂直连接np.concate...

2018-04-15 19:04:13 1742

原创 Pandas：按索引合并数据集

import numpy as npimport pandas as pdfrom pandas import Series,DataFrame一、merge函数left1 = DataFrame({'水果':['苹果','梨','草莓'], '价格':[3,4,5], '数量':[9,8,7]}).set...

2018-04-15 13:13:12 45195

原创 Pandas：按列合并数据集--merge函数

import numpy as npimport pandas as pdfrom pandas import Series,DataFramedf1 = DataFrame({'key':['b','b','a','c','a','a','b'], 'data1':range(7)})df2 = DataFrame({'key':['a','b','d']...

2018-04-14 21:36:36 59548 1

原创 Pandas：多级索引的操作--调整顺序、排序、汇总、指定列为索引

import numpy as npimport pandas as pdfrom pandas import Series,DataFramedf = DataFrame(np.arange(12).reshape((4,3)), index = [['a','a','b','b'],[1,2,1,2]], columns...

2018-04-14 21:12:07 22218 4

原创 Pandas：多级索引--高维数据

import numpy as npimport pandas as pdfrom pandas import Series,DataFrame一、创建多级索引data = Series(np.random.randn(10),index=[['x','x','x','x','x','x','y','y','y','y'], ...

2018-04-14 20:52:00 7146

原创 Pandas：处理缺失数据

import numpy as npimport pandas as pdfrom pandas import Series,DataFrame一、Pandas中的缺失值1.Numpy中的nans = Series(['a','b',np.nan,'c','d'])pd.isnull(s)0 False1 False2 True3 ...

2018-04-14 20:21:10 2040

原创 Pandas：统计函数与apply

import numpy as npimport pandas as pdfrom pandas import Series,DataFrame一、统计函数方法说明 count 非NA值的数量 describe 针对Series或各DataFrame列计算汇总统计 min、max 计算最小值和最大值 argmin、arg...

2018-04-14 00:08:26 2840

原创 Pandas：排名与排序

import numpy as npimport pandas as pdfrom pandas import Series,DataFrame一、排序1.按索引排序Seriess = Series([3,1,7,0],index=['c','d','a','b'])s.sort_index()a 7b 0c 3d 1dtype...

2018-04-13 23:22:53 2612

原创 Pandas：Series和DataFrame间的算术元素

import numpy as npimport pandas as pdfrom pandas import Series,DataFrame一、Series与Seriess1 = Series([1,3,5,7],index=['a','b','c','d'])s2 = Series([2,4,6,8],index=['a','b','c','e'])索引对齐项相...

2018-04-13 22:56:18 3373

原创 Pandas：Series和DataFrame删除指定轴上数据

import numpy as npimport pandas as pdfrom pandas import Series,DataFrame一、drop方法：产生新对象1.Serieso = Series([1,3,4,7],index=['d','c','b','a'])print(o.drop(['d','b']))c 3a 7dtype:...

2018-04-13 22:29:09 3866

原创 Pandas：Series和DataFrame的重新索引函数--reindex

import numpy as npimport pandas as pdfrom pandas import Series,DataFrame一、reindex函数的参数参数说明 index 用作索引的新序列。即可以是Index实例，也可以是其他序列型的Python数据结构。Index会被完全使用，就像没有任何复制一样 method 插值...

2018-04-13 22:13:14 4311

原创 Pandas：DataFrame的行列操作

import numpy as npimport pandas as pdfrom pandas import Series,DataFramedata = {'数量':[3,2,5], '价格':[10,9,8]}一、创建时指定行和列索引及其顺序在指定列索引时，若该列不存在，则初始化该列为NaNdf = DataFrame(data,columns=['品...

2018-04-13 21:23:34 5217

原创 Pandas：创建DataFrame的三种方式

from pandas import Series,DataFrameimport pandas as pd1.使用包含列表的字典创建DataFramedata = {'水果':['苹果','梨','草莓'], '数量':[3,2,5], '价格':[10,9,8]}df = DataFrame(data)print(df) 价格数量 ...

2018-04-13 20:40:44 167212 1

原创 Pandas中的数据结构：Series

from pandas import Seriesimport pandas as pdimport numpy as np一.介绍Series由一组数据和一组索引组成o = Series([1,2,3,4])print(o)print(o.values) # 数据print(o.index) # 索引0 11 22 33 4d...

2018-04-13 18:13:35 1366

原创 Numpy数组元素的存取：索引与切片

import numpy as np一、基本索引获取单个元素a = np.diag(np.arange(3))print(a[1,1])1获取一组元素print(a[1])[0 1 0]修改元素a[2,1] = 10print(a)[[ 0 0 0] [ 0 1 0] [ 0 10 2]]二、花式索引a...

2018-04-13 15:43:02 6046

原创 Python爬虫之Urllib库(二)：浏览器伪装(header)、维持登录状态(cookie)、代理服务器设置、超时设置

import urllib.requestimport urllib.parse一、HTTP协议1.HTTP是一个面向应用层的通讯协议，它使用URL定位资源、建立链接和传输数据。2.当爬取指定URL页面时，主机会向服务器发送HTTP请求消息，消息的格式包含：请求行请求头部空行请求数据 3.请求行用来说明请求类型，要访问的资源和所使用的HTT...

2018-04-10 21:28:58 4679

原创 Python爬虫之Urllib库使用(一)：爬取、保存页面、获取请求信息

import urllib.request一、介绍urllib是Python内置的HTTP请求库，其包括以下模块：urllib.request：请求模块urllib.error：异常处理模块urllib.parse：url解析模块urllib.robotparser：robot.txt解析模块二、爬虫指定URLwith urllib.request.u...

2018-04-10 01:29:38 4633 1

原创动态规划之最长公共子序列（LCS）原理及C++与Python实现

一、基本概念二、穷举算法的时间复杂度三、分析子问题四、递推方程和标记函数五、算法LCS1. 伪代码算法：LCS(X,Y,m,n) 输入：序列X及其长度m，序列Y及其长度n 输出：最长公共子序列的长度 for iß0 to m do C[i,0]ß0 for jß0 to n d...

2018-04-08 18:22:30 4654

原创机器学习中常见距离(相似度)的度量方法与Python实现

import numpy as npx = np.array([1,2,3,4])y = np.array([3,3,1,4])一、欧式距离欧式距离在二维和三维空间中就是我们常见两点间距离。对于n维空间中的两点x=(x1,x2,...,xn),y=(y1,y2,...,yn)x=(x1,x2,...,xn),y=(y1,y2,...,yn)x=(x_1,x_2,...,...

2018-04-06 23:17:13 3288

原创 Numpy中的乘积

import numpy as npx = np.array([1,2,3,4])y = np.array([2,3,4,5])X = np.array([[1,2,3,4],[5,6,7,8]]) #2*4Y = np.array([[1,1,1,1],[2,2,2,2],[3,3,3,3]]) #3*4Z = np.array([[1,1],[2,2,],[3,3],[4,4]]) ...

2018-04-06 21:52:44 18779 1

原创 Numpy数组重塑

import numpy as np1.创建一个二维数组a = np.array([[1,2,3,4],[4,5,6,7],[7,8,9,10]])2.直接修改shape属性a.shape = (4,3)aarray([[ 1, 2, 3], [ 4, 4, 5], [ 6, 7, 7], [ 8, 9,...

2018-04-06 19:09:05 2020

原创 Numpy数据类型

import numpy as np一、Numpy中的数据类型set(np.typeDict.values()){numpy.float32, numpy.bool_, numpy.float64, numpy.complex128, numpy.float16, numpy.bytes_, numpy.uint16, numpy.complex64, nump...

2018-04-06 18:05:32 6355 1

原创【排序(C++实现)】：堆排序

一、介绍由于堆的性质是保证堆顶的元素始终是最大值(最小值)，利用这个性质可以对数组进行排序，其最好、最坏、平均时间复杂度均为O(nlogn)，这里我们以大根堆为例进行讲解。注：如果数组下标从1开始，那么对于结点i，其左孩子结点为2*i，其父结点为i/2;若数组下标从0开始，那么对于结点i，其左孩子结点为2*i+1，其父结点为(i-1)/2; 二、大根堆的...

2018-04-06 13:32:27 931

原创 numpy中构造array

import numpy as np一、人工构造array一维a = np.array([1,2,3,4])print(a.shape)(4,)二维b = np.array([[1,2,3],[4,5,6]])print(b.shape)(2, 3)三维c = np.array([[[1],[2]],[[3],[4]]])print(c...

2018-04-06 02:32:08 3684

basic-miktex-2.9.6643-x64.exe

Linux下模拟软件互斥实现算法

空空如也