自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

bqw的博客

没什么描述

  • 博客(48)
  • 资源 (2)
  • 收藏
  • 关注

原创 训练集、测试集和验证集(使用sklearn进行划分)

 一、训练集和测试集1.      概念我们训练机器学习模型,目的是使用已有数据来预测未知的数据,通常我们称模型对未知数据的预测能力称为泛化能力。为了评估一个模型的泛化能力,通常我们会将数据分成训练集和测试集,训练集用来训练模型,测试集用来评估模型的泛化能力。2.      使用sklearn划分训练集和测试集from sklearn.model_selection import train_te...

2018-04-21 22:27:35 41622 1

原创 Pandas:透视表(pivotTab)和交叉表(crossTab)

import numpy as npimport pandas as pdfrom pandas import Series,DataFrame一、透视表(pivotTab)透视表就是将指定原有DataFrame的列分别作为行索引和列索引,然后对指定的列应用聚集函数(默认情况下式mean函数)。df = DataFrame({'类别':['水果','水果','水果','蔬菜...

2018-04-20 11:04:05 42499 1

原创 Pandas:apply的三个应用案例

import numpy as npimport pandas as pdfrom pandas import Series,DataFrame一、使用cut或qcut进行分组,然后在分组上apply1.cutdf = DataFrame({'data1':np.random.randn(1000), 'data2':np.rando...

2018-04-20 10:40:37 3572

原创 Pandas:分组级的运算和转换--transform和apply

import numpy as npimport pandas as pdfrom pandas import Series,DataFrame一、介绍聚集函数只是将一组值转换为一个标量值,其实还可以将更多类型的函数应用到分组上,下面的transform和apply就提供这样的功能。二、transformtransform中传入的函数只能返回两种结果,可以广播的标量值或...

2018-04-19 22:03:48 5594

原创 Pandas:GroupBy中的数据聚集

import numpy as npimport pandas as pdfrom pandas import Series,DataFrame一、聚集函数1.聚集函数就是一种将一组数转换为一个标量值的函数2.经过优化的groupby聚集函数 函数名 说明 count 分组中非NA值的数量 sum 非NA值的和 mean...

2018-04-19 21:16:32 4609

原创 Pandas:GroupBy--对分组进行迭代

import pandas as pdimport numpy as npfrom pandas import Series,DataFramedf = DataFrame({'key1':['a','a','b','b','a'], 'key2':['one','two','one','two','one'], 'data1':n...

2018-04-18 23:28:23 5970

原创 Pandas:GroupBy的七种方式

import numpy as npimport pandas as pdfrom pandas import Series,DataFrame一、GroupBy的介绍groupby就是将DataFrame按照指定的列进行分组,然后在每个组上应用函数进行映射,最后将映射的结果进行合并。Pandas中的groupby只是返回GroupBy对象,它只是记录了关于分组的信息,并不进行...

2018-04-18 23:02:07 9490

原创 Python字符串操作

一、Python内置字符串方法汇总 方法 说明 count 返回子串在字符串中出现次数 endswith、startswith 如果字符串以某个后缀结尾(或开头),则返回True join 将字符串用作连接其他字符串序列的分隔符 index 如果在字符串中找到子串,则返回子串第一个字符所在的位置。如果没有找到,则引发ValueErr...

2018-04-17 01:38:00 4398

原创 Pandas:重塑(stack)和轴向旋转(pivot)

import numpy as npimport pandas as pdfrom pandas import Series,DataFrame一、重塑 stack:将数据的列索引旋转为行索引 unstack:将数据的行索引旋转为列索引df = DataFrame({'水果':['苹果','梨','草莓'], '数量':[3,4...

2018-04-16 23:24:33 10397

原创 Pandas:类别变量向量化--get_dummies

import numpy as npimport pandas as pdfrom pandas import Series,DataFrame一、向量化df = DataFrame({'key':['b','b','a','c','a','b'], 'data1':range(6)})print(df) data1 key0 ...

2018-04-16 18:58:26 12062

原创 Pandas:随机重排列和随机采样--permutation和take

import numpy as npimport pandas as pdfrom pandas import Series,DataFrame一、随机重排列df = DataFrame({'水果':['苹果','梨','草莓'], '价格':[7,8,9], '数量':[3,4,5]})print(df) ...

2018-04-16 18:46:19 13851 1

原创 Pandas:数据的离散化

import numpy as npimport pandas as pdfrom pandas import Series,DataFrame一、cut的使用将ages按照“18到25”、“26到35”、“35到60”以及“60以上”进行划分ages = [20,22,25,27,21,23,37,31,61,45,41,32]bins = [18,25,35,60,1...

2018-04-16 18:17:22 5135 2

原创 Pandas:重命名各个轴上的索引--rename

import numpy as npimport pandas as pdfrom pandas import Series,DataFrame一、使用索引的map函数df = DataFrame(np.arange(12).reshape(3,4),index=['apple','pear','strawberry'],columns=['a','b','c','d'])p...

2018-04-16 18:01:40 3729

原创 Pandas:值替换--replace

import numpy as npimport pandas as pdfrom pandas import Series,DataFrame一、replace的使用s = Series([1,2,3,4,5,6])s.replace(6,100)0 11 22 33 44 55 100dtype...

2018-04-16 17:49:41 9721

原创 Pandas:利用函数或字典进行数据转换--map

import numpy as npimport pandas as pdfrom pandas import Series,DataFrame一、利用字典进行映射df = DataFrame({'食物':['苹果','橘子','黄瓜','番茄','五花肉'], '价格':[7,5,4,3,12], '数量':[5,8...

2018-04-16 17:42:13 5885

原创 Pandas:移除重复数据

import pandas as pdimport numpy as npfrom pandas import Series,DataFrame一、unique:只能应该与Seriess = Series(['a','b','a','c','b'])s.unique()array(['a', 'b', 'c'], dtype=object)二、drop_dupl...

2018-04-16 17:12:38 3488

原创 Pandas:连接数据集--concat

import numpy as npimport pandas as pdfrom pandas import Series,DataFrame一、Numpy数组的连接–concatenatea = np.arange(6).reshape(2,3)aarray([[0, 1, 2], [3, 4, 5]])1.垂直连接np.concate...

2018-04-15 19:04:13 1742

原创 Pandas:按索引合并数据集

import numpy as npimport pandas as pdfrom pandas import Series,DataFrame一、merge函数left1 = DataFrame({'水果':['苹果','梨','草莓'], '价格':[3,4,5], '数量':[9,8,7]}).set...

2018-04-15 13:13:12 45195

原创 Pandas:按列合并数据集--merge函数

import numpy as npimport pandas as pdfrom pandas import Series,DataFramedf1 = DataFrame({'key':['b','b','a','c','a','a','b'], 'data1':range(7)})df2 = DataFrame({'key':['a','b','d']...

2018-04-14 21:36:36 59548 1

原创 Pandas:多级索引的操作--调整顺序、排序、汇总、指定列为索引

import numpy as npimport pandas as pdfrom pandas import Series,DataFramedf = DataFrame(np.arange(12).reshape((4,3)), index = [['a','a','b','b'],[1,2,1,2]], columns...

2018-04-14 21:12:07 22218 4

原创 Pandas:多级索引--高维数据

import numpy as npimport pandas as pdfrom pandas import Series,DataFrame一、创建多级索引data = Series(np.random.randn(10),index=[['x','x','x','x','x','x','y','y','y','y'], ...

2018-04-14 20:52:00 7146

原创 Pandas:处理缺失数据

import numpy as npimport pandas as pdfrom pandas import Series,DataFrame一、Pandas中的缺失值1.Numpy中的nans = Series(['a','b',np.nan,'c','d'])pd.isnull(s)0 False1 False2 True3 ...

2018-04-14 20:21:10 2040

原创 Pandas:统计函数与apply

import numpy as npimport pandas as pdfrom pandas import Series,DataFrame一、统计函数 方法 说明 count 非NA值的数量 describe 针对Series或各DataFrame列计算汇总统计 min、max 计算最小值和最大值 argmin、arg...

2018-04-14 00:08:26 2840

原创 Pandas:排名与排序

import numpy as npimport pandas as pdfrom pandas import Series,DataFrame一、排序1.按索引排序Seriess = Series([3,1,7,0],index=['c','d','a','b'])s.sort_index()a 7b 0c 3d 1dtype...

2018-04-13 23:22:53 2612

原创 Pandas:Series和DataFrame间的算术元素

import numpy as npimport pandas as pdfrom pandas import Series,DataFrame一、Series与Seriess1 = Series([1,3,5,7],index=['a','b','c','d'])s2 = Series([2,4,6,8],index=['a','b','c','e'])索引对齐项相...

2018-04-13 22:56:18 3373

原创 Pandas:Series和DataFrame删除指定轴上数据

import numpy as npimport pandas as pdfrom pandas import Series,DataFrame一、drop方法:产生新对象1.Serieso = Series([1,3,4,7],index=['d','c','b','a'])print(o.drop(['d','b']))c 3a 7dtype:...

2018-04-13 22:29:09 3866

原创 Pandas:Series和DataFrame的重新索引函数--reindex

import numpy as npimport pandas as pdfrom pandas import Series,DataFrame一、reindex函数的参数 参数 说明 index 用作索引的新序列。即可以是Index实例,也可以是其他序列型的Python数据结构。Index会被完全使用,就像没有任何复制一样 method 插值...

2018-04-13 22:13:14 4311

原创 Pandas:DataFrame的行列操作

import numpy as npimport pandas as pdfrom pandas import Series,DataFramedata = {'数量':[3,2,5], '价格':[10,9,8]}一、创建时指定行和列索引及其顺序在指定列索引时,若该列不存在,则初始化该列为NaNdf = DataFrame(data,columns=['品...

2018-04-13 21:23:34 5217

原创 Pandas:创建DataFrame的三种方式

from pandas import Series,DataFrameimport pandas as pd1.使用包含列表的字典创建DataFramedata = {'水果':['苹果','梨','草莓'], '数量':[3,2,5], '价格':[10,9,8]}df = DataFrame(data)print(df) 价格 数量 ...

2018-04-13 20:40:44 167212 1

原创 Pandas中的数据结构:Series

from pandas import Seriesimport pandas as pdimport numpy as np一.介绍Series由一组数据和一组索引组成o = Series([1,2,3,4])print(o)print(o.values) # 数据print(o.index) # 索引0 11 22 33 4d...

2018-04-13 18:13:35 1366

原创 Numpy数组元素的存取:索引与切片

import numpy as np一、基本索引获取单个元素a = np.diag(np.arange(3))print(a[1,1])1获取一组元素print(a[1])[0 1 0]修改元素a[2,1] = 10print(a)[[ 0 0 0] [ 0 1 0] [ 0 10 2]]二、花式索引a...

2018-04-13 15:43:02 6046

原创 Python爬虫之Urllib库(二):浏览器伪装(header)、维持登录状态(cookie)、代理服务器设置、超时设置

import urllib.requestimport urllib.parse一、HTTP协议1.HTTP是一个面向应用层的通讯协议,它使用URL定位资源、建立链接和传输数据。2.当爬取指定URL页面时,主机会向服务器发送HTTP请求消息,消息的格式包含:请求行请求头部空行请求数据 3.请求行用来说明请求类型,要访问的资源和所使用的HTT...

2018-04-10 21:28:58 4679

原创 Python爬虫之Urllib库使用(一):爬取、保存页面、获取请求信息

import urllib.request一、介绍urllib是Python内置的HTTP请求库,其包括以下模块:urllib.request:请求模块urllib.error:异常处理模块urllib.parse:url解析模块urllib.robotparser:robot.txt解析模块二、爬虫指定URLwith urllib.request.u...

2018-04-10 01:29:38 4633 1

原创 动态规划之最长公共子序列(LCS)原理及C++与Python实现

一、基本概念 二、穷举算法的时间复杂度 三、分析子问题 四、递推方程和标记函数  五、算法LCS1. 伪代码 算法:LCS(X,Y,m,n) 输入:序列X及其长度m,序列Y及其长度n 输出:最长公共子序列的长度 for iß0 to m do   C[i,0]ß0 for jß0 to n d...

2018-04-08 18:22:30 4654

原创 机器学习中常见距离(相似度)的度量方法与Python实现

import numpy as npx = np.array([1,2,3,4])y = np.array([3,3,1,4])一、欧式距离欧式距离在二维和三维空间中就是我们常见两点间距离。对于n维空间中的两点x=(x1,x2,...,xn),y=(y1,y2,...,yn)x=(x1,x2,...,xn),y=(y1,y2,...,yn)x=(x_1,x_2,...,...

2018-04-06 23:17:13 3288

原创 Numpy中的乘积

import numpy as npx = np.array([1,2,3,4])y = np.array([2,3,4,5])X = np.array([[1,2,3,4],[5,6,7,8]]) #2*4Y = np.array([[1,1,1,1],[2,2,2,2],[3,3,3,3]]) #3*4Z = np.array([[1,1],[2,2,],[3,3],[4,4]]) ...

2018-04-06 21:52:44 18779 1

原创 Numpy数组重塑

import numpy as np1.创建一个二维数组a = np.array([[1,2,3,4],[4,5,6,7],[7,8,9,10]])2.直接修改shape属性a.shape = (4,3)aarray([[ 1, 2, 3], [ 4, 4, 5], [ 6, 7, 7], [ 8, 9,...

2018-04-06 19:09:05 2020

原创 Numpy数据类型

import numpy as np一、Numpy中的数据类型set(np.typeDict.values()){numpy.float32, numpy.bool_, numpy.float64, numpy.complex128, numpy.float16, numpy.bytes_, numpy.uint16, numpy.complex64, nump...

2018-04-06 18:05:32 6355 1

原创 【排序(C++实现)】:堆排序

一、       介绍由于堆的性质是保证堆顶的元素始终是最大值(最小值),利用这个性质可以对数组进行排序,其最好、最坏、平均时间复杂度均为O(nlogn),这里我们以大根堆为例进行讲解。注:如果数组下标从1开始,那么对于结点i,其左孩子结点为2*i,其父结点为i/2;若数组下标从0开始,那么对于结点i,其左孩子结点为2*i+1,其父结点为(i-1)/2; 二、       大根堆的...

2018-04-06 13:32:27 931

原创 numpy中构造array

import numpy as np一、人工构造array一维a = np.array([1,2,3,4])print(a.shape)(4,)二维b = np.array([[1,2,3],[4,5,6]])print(b.shape)(2, 3)三维c = np.array([[[1],[2]],[[3],[4]]])print(c...

2018-04-06 02:32:08 3684

basic-miktex-2.9.6643-x64.exe

MikTeX是Tex/LaTex最新的实现程序,使用Anaconda将文档保存成PDF时需要安装。

2018-04-04

Linux下模拟软件互斥实现算法

在Linux下,模拟实现四种软件互斥算法:Dekker,Peterson,Lamport,Eisenburg-Mcguire.

2012-09-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除