Python数据分析
我是二师兄
暂时买不起卡宴
展开
-
Python读取XML中数据提取为Dataframe
对应的数据集为:<?xml version="1.0"?>-<opencv_storage> -<vocabulary type_id="opencv-matrix"> <rows>424</rows> <cols>512</cols> &原创 2018-08-03 11:59:21 · 6168 阅读 · 0 评论 -
Numpy中reshape函数、reshape(1,-1)的含义(浅显易懂,源码实例)
本文详细介绍numpy中reshape函数的三种常见相关用法。一般用法:numpy.arange(n).reshape(a, b); 依次生成n个自然数,并且以a行b列的数组形式显示:In [1]: np.arange(16).reshape(2,8) #生成16个自然数,以2行8列的形式显示Out[1]: array([[ 0, 1, 2, 3, 4, 5, 6, ...原创 2018-08-27 16:34:19 · 66036 阅读 · 4 评论 -
Numpy中random.choice函数的用法举例
random.choice( list or array) 函数: 在list 或者 array中取一个数。In [1]: np.random.choice([1,2,3,4,5]) #随机选一个数字Out [1]: 2In [2]: np.random.choice([1,2,3,4,5]) #随机选一个数字Out [2]: 4In [3]: np.random.choi...原创 2018-08-27 19:53:04 · 3087 阅读 · 0 评论 -
Pandas中multiindex转换成列
Multiindex格式如下:(a, b, c, ...),index column (a1,b1,c1) d1 (a2,b2,c2) d2 直接调用函数reset_index(),Multiindex中(a, b, c, ...)就变成columns了,index重置为(0,1,2,...), 如下:index colum...原创 2018-09-10 14:59:25 · 12613 阅读 · 1 评论 -
Python3创建字典(Dict)的几种常规方法
1.常规创建字典In [1]: dict1 = {'a':1, 'b':2, 'c':3}In [2]: print(dict1)Out[2]: {'a': 1, 'b': 2, 'c': 3}2. 利用zip函数和 dict函数创建字典In [3]: list1 = ['a', 'b', 'c']; list2 = [1, 2, 3]; dict1 = dict(zip(l...原创 2018-10-15 15:28:22 · 11314 阅读 · 2 评论 -
Pandas中isin函数 Dataframe提取(删除)指定行列
本文介绍主要结介绍用isin函数提取和删除Dataframe指定行列:isin函数(条件前加~表示isin函数的逆函数)1. 返回含有具体条件的dataframe, 如返回 'A'列中含有 [4,8] 的dataframe( 用逆函数对筛选后的结果取余,起删除指定行作用 )IN [1]: dataOut[1]: A B C D0 0 1 2 31 ...原创 2018-11-29 11:56:11 · 27125 阅读 · 1 评论 -
List快速去重(Python)
利用Set函数函数(set() 函数创建一个无序不重复元素集,可进行关系测试,删除重复数据,还可以计算交集、差集、并集等)In [1]: test=[1,2,3,4,2,3]In [2]: set(test)Out [2]: {1, 2, 3, 4}In [3]: list(set(test))Out [3]: [1, 2, 3, 4] ...原创 2018-11-26 15:50:50 · 8712 阅读 · 0 评论 -
Pandas: Drop函数(Dataframe删除指定行列)
isin函数 (请点击链接:isin函数提取和删除Dataframe指定行列)更多原创PYTHON数据分析博文,请关注博文专栏(超链接:PYTHON数据分析) 本文介绍主要结介绍用Drop函数删除Dataframe指定行列:drop(labels=None, axis=0, index=None, columns=None, level=None, in...原创 2018-11-29 14:45:53 · 124128 阅读 · 4 评论 -
Pandas中at、iat函数详解
at 函数:通过行名和列名来取值(取行名为a, 列名为A的值)iat 函数:通过行号和列号来取值(取第1行,第1列的值)本文给出at、iat常见的用法,并附上详细代码。1. 首先创建一个DataFrame(data)Out[1]: pd.DataFrame(np.arange(15).reshape(5,3), columns=list('ABC'), index=list('a...原创 2018-12-04 14:12:18 · 24420 阅读 · 3 评论 -
A value is trying to be set on a copy of a slice from a DataFrame
最近在做数据分析的时候,发现在Dataframe中插入一列之后会报这个错误A value is trying to be set on a copy of a slice from a DataFrame.Try using .loc[row_indexer,col_indexer] = value instead源数据如下:In [158]:dataOut[158]: ...原创 2018-12-25 14:46:42 · 6242 阅读 · 0 评论 -
Pandas 中Dataframe数据插入: Insert函数 详解
Dataframe.insert(loc, column, value, allow_duplicates=False): 在Dataframe的指定列中插入数据。参数介绍: loc: int型,表示第几列;若在第一列插入数据,则 loc=0 column: 给插入的列取名,如 column='新的一列' value:数字,array,seri...原创 2018-12-25 14:44:19 · 59813 阅读 · 0 评论 -
Pandas数据去重:drop_duplicates函数详解
DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)参数解释:subset: 列名,默认所有的列 keep: 是否保留{‘first’, ‘last’, False},keep= 'first' 表示去重时每组重复数据保留第一条数据,其余数据丢弃; keep='last' 表示去重时每组重复数据保留最后一条...原创 2019-01-15 15:49:57 · 12815 阅读 · 2 评论 -
MYSQL中导入Excel文件
本文阐述了一般情况下怎么在mysql中导入excel文件,作者借助工具sqlyog,也可以直接在mysql中操作。主要步骤:第一步:首先将excel文件打开另存为csv文件再将其用Notepad打开,将编码改成utf-8保存第二步:先建立数据库列名一致的表格,可参考博客,本文用sqlyog创建,也可直接在mysql里面创建再写导入sqlLOAD DATA IN...原创 2019-04-01 14:50:30 · 20234 阅读 · 4 评论 -
Numpy中vstack与hstack函数源码
vstack与hstack函数Numpy中用来拼接数组的基础函数。vstack( vertical stack):将多个数组沿竖直方向拼接 hstack( horizontal stack):将多个数组沿水平方向拼接In [137] a=np.array([[1, 2, 4, 5],[1, 2, 4, 5]]) b=np.array([[3, 4, 6,...原创 2019-04-25 22:38:14 · 960 阅读 · 0 评论 -
Numpy中concatenate与tile函数详解
concatenate((a1,a2,...),axis=0)实现numpy中数据多个数组(a1,a2,...)的拼接,axis=0沿着垂直方向,axis=1沿着水平方向。In [245] a=np.array([[1, 2, 4, 5]]) b=np.array([[3, 4, 6, 7]]) print('Horizontal \...原创 2019-04-26 21:56:54 · 1738 阅读 · 0 评论 -
Python字符串:join与format函数
str.join(): 将字符插入对象中间返回一个长字符串In [1]: print(' and '.join(['Mary'])) print(' and '.join(['Mary','John'])) print(' and '.join(['Mary','John','Amy']))Out [1]: Mary Mary a...原创 2019-07-27 15:55:57 · 3325 阅读 · 0 评论 -
Python提取TXT数据转化为DataFrame
第一步:读取文本,open函数第二步:处理文本,split函数第三步:利用Numpy, pandasimport pandas as pdimport numpy as np#打开txt文件file_object=open("D:/test.txt")try: file_content=file_object.read()finally: file_obje...原创 2018-08-02 16:14:44 · 26251 阅读 · 0 评论 -
Pandas将多个Sheet写入到本地同一Excel文件中
直接上代码import pandas as pd#读取两个表格data1=pd.read_excel('文件路径')data2=pd.read_excel('文件路径')#将两个表格输出到一个excel文件里面writer=pd.ExcelWriter('D:新表.xlsx')data1.to_excel(writer,sheet_name='sheet1')data2.t...原创 2018-08-06 14:41:36 · 13999 阅读 · 1 评论 -
Pandas中loc和iloc函数用法详解(源码+实例)
loc函数:通过行索引 "Index" 中的具体值来取行数据(如取"Index"为"A"的行)iloc函数:通过行号来取行数据(如取第二行的数据)本文给出loc、iloc常见的五种用法,并附上详细代码。1. 利用loc、iloc提取行数据import numpy as npimport pandas as pd#创建一个Dataframedata=pd.DataFrame(...原创 2018-08-04 15:55:40 · 378191 阅读 · 35 评论 -
Pandas数据库缺失值处理函数dropna
缺失值处理函数dropna:去除数据结构中值为空得数据。函数用法:dropna()from pandas import read_csv;df = read_csv('E://pythonlearning//datacode//firstpart//4//4.4//data.csv');newDF = df.dropna();运行代码前两行得到:再运行代码第三行得到:...原创 2018-05-07 21:47:53 · 6854 阅读 · 0 评论 -
Pandas数据库数据抽取
记录抽取:是指根据一定的条件,对数据进行抽取函数用法:dataframe[condition]import pandas;from pandas import read_csv;df = read_csv("E://pythonlearning//datacode//firstpart//4//4.8//data.csv", sep="|");df[df.comments>1000...原创 2018-05-21 11:46:44 · 2749 阅读 · 0 评论 -
Numpy.random.randint()函数用法及源码
随机抽样:随机从数据中,按照一定的行数或者比例抽取数据函数用法:numpy.random.randint(start, end, num)import numpy;from pandas import read_csv;import pandas as pddf = read_csv("E://pythonlearning//datacode//firstpart//4//4.9//data...原创 2018-05-21 12:20:23 · 15283 阅读 · 0 评论 -
Pandas.concat()函数用法及源码
记录合并:是指将两个结构相同的数据框,合并成一个数据框函数用法:concat([dataFrame1, dataFrame2, ...])import pandas;from pandas import read_csv;df1 = read_csv("E://pythonlearning//datacode//firstpart//4//4.10//data1.csv", sep="|")...原创 2018-05-21 12:31:48 · 2806 阅读 · 0 评论 -
Pandas数据框空格值处理
空格值处理:清除字符型数据左右的空格函数用法:strip()from pandas import read_csv;df = read_csv('E://pythonlearning//datacode//firstpart//4//4.5//data.csv')newName = df['name'].str.strip();df['name'] = newName;运行代码前两行得...原创 2018-05-08 10:12:37 · 14775 阅读 · 1 评论 -
Pandas中slice函数字段抽取
字段抽取:根据已知数据的开始和结束为止,抽取出新的列函数用法:slice(start,stop)from pandas import read_csv;df = read_csv("E://pythonlearning//datacode//firstpart//4//4.6//data.csv");df['tel'] = df['tel'].astype(str);#这个函数是把它变成字...原创 2018-05-08 10:19:08 · 7581 阅读 · 2 评论 -
Pandas.split()函数用法及源码
字段拆分:是指按照固定的字符,拆分已有字符串函数用法:split(sep,n,expand=false)sep表示用于分割的字符;n表格分割成多少列;expand表示是否展开为数据款,True输出Series,False输出Dataframe。from pandas import Series;from pandas import DataFrame;from pandas import re...原创 2018-05-08 10:44:32 · 13493 阅读 · 1 评论 -
Pandas数据框列合并详解
字段合并:将同一个数据框中的不同列,进行合并,形成新的列。函数用法:column=column1+column2+...from pandas import read_csv;import pandas as pddf= read_csv( "E://pythonlearning//datacode//firstpart//4//4.11//data.csv", sep="...原创 2018-05-21 16:24:30 · 8375 阅读 · 0 评论 -
Pandas.merge()函数用法及源码
字段匹配:将不同结构的数据框,按照一定的条件进行合并函数用法:merge(df1, df2, column of df1, column of df2)import pandas;from pandas import read_csv;items = read_csv( "E:\\pythonlearning\\datacode\\firstpart\\4\\4.12\\data1....原创 2018-05-21 16:39:29 · 2564 阅读 · 0 评论 -
Pandas之数据框运算
数据框的简单计算:直接对字段进行加减乘除运算:from pandas import read_csv;import pandas as pd;df = read_csv("E:\\pythonlearning\\datacode\\firstpart\\4\\4.13\\data.csv", sep="|");result = df.price*df.num#乘积result1 = d...原创 2018-05-21 16:57:19 · 4038 阅读 · 0 评论 -
Pandas之数据标准化
数据标准化:将数据按比例缩放,使之落入到特定区间,一般我们使用0-1标准化。公式:X=(x-min)/(max-min)from pandas import read_csv;df = read_csv("E:\\pythonlearning\\datacode\\firstpart\\4\\4.14\\data.csv");scale = (df.score-df.score.min()...原创 2018-05-21 19:34:55 · 12879 阅读 · 0 评论 -
Pandas.cut函数用法及源码
数据分组:根据数据分析对象的特征,按照一定的数值指标,把数据分析对象划分为不同的区间部分来进行研究,以揭示其内在的联系和规律性。函数用法:cut(series, bins, right=True, labels=NULL), right=True表示分组右边闭合,right=False表示分组左边闭合,labels表示分组的自定义标签。import pandas;from pandas impo...原创 2018-05-21 19:54:31 · 10107 阅读 · 0 评论 -
python数据分析-DataFrame数据框常用基本知识(列、行、切片、计算等code)
Python数据分析博文汇总Pandas重复值处理函数drop_duplicates() Pandas数据库缺失值处理函数dropna Pandas中slice函数字段抽取 python数据分析-DataFrame数据框基本知识 Pandas数据库数据抽取 Numpy.random.randint()函数用法及源码 Pandas.concat()函数用法及源码 Pandas...原创 2018-05-08 16:24:56 · 27877 阅读 · 0 评论 -
Numpy中getA()/getA1()/getH()/getI()函数(源码实例)
numpy中shape函数与tile函数1. getA()函数:将矩阵变成ndarray类型,或者使用 np.asarray()函数import numpy as npa=np.mat([[1,2],[3,4],[5,6]])aOut[32]: matrix([[1, 2], [3, 4], [5, 6]])a.getA()Out...原创 2018-07-16 11:54:24 · 2105 阅读 · 0 评论 -
Dataframe指定列转化为矩阵matrix、数组list
废话不多说,直接上代码import numpy as npimport pandas as pd#创建数据框datadata=pd.DataFrame(np.arange(16).reshape(4,4),index=list('ABCD'),columns=list('EFGH'))''' E F G HA 0 1 2 3B 4 5 ...原创 2018-07-05 11:05:01 · 15502 阅读 · 4 评论 -
Python利用置信区间进行数据清理
当我们利用python进行数据清理和筛选时,有时候一串数据的噪点很多,我们需要抽取一部分数据作为样本来进行分析,下面推荐一种基本的数据筛选方法,利用置信区间,例:样本满足正态分布。置信区间:当给出某个估计值的95%置信区间为 [a, b] 时,可以理解为有95%的信心可以说说样本的平均值介于a到b之间,而发生错误的概率为5%。计算方式:第一步:计算样本均值 第二步:计算样本标准差:...原创 2018-07-24 16:02:02 · 6191 阅读 · 0 评论 -
Numpy中shape函数、tile函数
Knn与Kmeans算法中计算欧式距离多次出现这类函数,不免深入了解一下:numpy.shape(), 查看矩阵或者数组维度。import numpy as npa=np.array([1,2],[3,4],[5,6])a.shape[0]=3# 行a.shape[1]=2# 列numpy.tile(), 将数组按行或者列方向复制np.tile(a,2) #将矩阵沿着行复...原创 2018-07-16 10:52:46 · 449 阅读 · 0 评论 -
Pandas重复值处理函数drop_duplicates()
重复值处理:把数据结构中,行相同得数据只保留一行函数用法:drop_duplicates()from pandas import read_csv;df = read_csv('E://pythonlearning//datacode//firstpart//4//4.3//data.csv')newDF = df.drop_duplicates();运行代码前两行得到:再运行代码第三行得...原创 2018-05-07 21:38:05 · 5404 阅读 · 0 评论