- 博客(48)
- 资源 (3)
- 收藏
- 关注
原创 Python-搞懂多种函数参数的用法
Python-搞懂多种函数参数的用法参数作为函数调用中传递给函数体的数据,具有多种形式,在函数定义中可分为:普通参数、默认值参数、args参数、kwargs参数,在函数调用中:位置参数、关键字参数。接下来,该博文叙述上述参数的用法及其特性。1 普通参数def Print(line,grid): print(line.center(grid))Print('hello w...
2018-09-09 16:55:26 1292
原创 Pandas详解二十六之Apply--对行、列用函数处理
约定:import pandas as pdApply–对行、列用函数处理俗话说,工欲善其事,必先利其器。在这里形容apply函数再合适不过了,apply函数,可以说是pandas中自由度最高的函数。不过,是否能发挥其巨大威力,取决于我们的创造力。在本博文中,首先通过简单例子来说明apply的用法,然后通过俩个高级例子来演示常用的用法。1 简单例子来...
2018-09-02 08:25:02 38045 12
原创 SVN checckout 失败:Error: REPORT request on '/svn/signature/!svn/me' failed 的解决办法
SVN checckout 失败:Error: REPORT request on ‘/svn/signature/!svn/me’ failed 的解决办法错误如下:步骤:1 解锁右击checkout的文件->tortoiseSVN->Cleanup-> 2 更新右击checkout的文件->SVN Update若结果还是出现该错...
2018-08-29 10:57:28 22347 3
原创 Pandas详解二十五之聚合运算agg
约定:import pandas as pd聚合运算在数据分析中,对数据聚合(求和、平均值等)通常是不可避免的。在将数据分组(groupby)后,新手若不知函数 agg() 的情况下,很有可能写出二三十行的for循环只为求每个分组的平均值。在这里,介绍个强大的函数:agg() ,能让你的代码缩减到一行。 创建对象和分组df1=pd.DataFrame...
2018-08-28 15:49:17 10471 2
原创 超Easy正则表达式实战教程---入门 :匹配多种形式浮点数
超Easy正则表达式实战教程—入门 :匹配多种形式浮点数浮点数多种形式,包括如下:3.6 , +3.14 , -3.14 , .7正确匹配上述浮点数,正确姿势如下:~[+-]?[0-9]+.[0-9]+|.[0-9]+~若有疑惑,或新手刚上路,可往下看。该博客是用python语言写的,边学边用,通俗易懂,可以让你轻松学到:~r 、[…] 、 + 、 \ 、...
2018-08-03 10:56:43 1559
原创 Pandas详解二十四之写入CSV、Excel文件
约定:import pandas as pdimport numpy as npimport sys写入CSV文件写入csv文件是最常用的,csv文件默认用’,’作为分隔符。df1.to_csv(path_or_buf=None, sep=’,’, na_rep=”, float_format=None, columns=None, header=True, index...
2018-08-03 08:59:33 15880
原创 Pandas详解二十三之读取CSV、Excel文件
约定:import pandas as pd读取CSV文件csv文件以.csv后缀结尾,默认用’,’作为分隔符,pandas提供了pd.read_csv()函数供我们读取csv文件:pd.read_csv(filepath_or_buffer, sep=’,’, delimiter=None, header=’infer’, names=None, in...
2018-08-01 10:29:20 6990
原创 Pandas详解二十二之离散化(分组、区间化)
约定import pandas as pd离散化通常对于我们不想要连续的数值,我们可将其离散化,离散化也可称为分组、区间化。Pandas为我们提供了方便的函数cut():pd.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False) 参数解释:...
2018-07-24 17:44:56 14311 6
原创 Pandas详解二十一之移除重复数据
约定import pandas as pd移除重复数据DataFrame中经常会出现重复行,利用duplicated()函数返回每一行判断是否重复的结果(重复则为True),drop_duplicates([key1,key2,..])则可去除重复行。1 判断每一行是否重复df1=pd.DataFrame({'A':[1,1,1,2,2,3],'B':list("a...
2018-07-24 17:41:06 8328
原创 Pandas详解二十之Merge、Join、Concat方式-详解Pandas对象合并、连接
约定:import pandas as pdMerge-数据库风格的合并数据的合并(merge)和连接(join)是我们在数据分析和挖掘中不可或缺的,是通过一个或一个以上的键连接的。pandas的合并(merge)的的绝大功能和数据库操作类似的。具有如下参数:pd.merge(left, right, how=’inner’, on=None, left...
2018-06-12 13:00:12 5206 4
原创 Pandas详解十九之轴向连接Pandas对象-Concat
约定:import pandas as pd轴向连接-Concat在数据处理中,通常将原始数据分开几个部分进行处理而得到相似结构的Series或DataFrame对象,我们该如何进行纵向合并它们?这时我们可以选择用pd.concat()方式极易连接两个或两个以上的Series或DataFrame对象。如下是该函数的参数解读:pd.concat(objs,...
2018-06-12 12:47:20 1386
原创 Pandas详解十八之DataFrame对象的-Join合并
约定:import pandas as pd对象的实例方法-JoinDataFrame对象有个df.join()方法也能进行pd.merge()的合并,它能更加方便地按照对象df的索引进行合并,且能同时合并多个DataFrame对象。它具有如下参数:df.join(other, on=None, how=’left’, lsuffix=”, rsuffi...
2018-06-11 22:56:17 19181
原创 Urllib3+BeautifulSoup+Thread:多线程爬虫教程(爬取西刺代理IP)
导入模块from bs4 import BeautifulSoupimport urllib3import urllibimport threading Urllib3+BeautifulSoup+Thread:多线程爬虫教程(爬取西刺代理IP)爬虫是学python中最好玩的学习方法,也是方便生活、工作中的有效利器,爬虫帮我们工作,那会节省大量的人力。在该博客中,分成...
2018-06-02 20:16:15 1871
原创 Pandas详解十七之Merge合并-数据库风格的合并
约定:import pandas as pdMerge-数据库风格的合并数据的合并(merge)和连接(join)是我们在数据分析和挖掘中不可或缺的,是通过一个或一个以上的键连接的。pandas的合并(merge)的的绝大功能和数据库操作类似的。具有如下参数:pd.merge(left, right, how=’inner’, on=None, left...
2018-05-31 20:35:44 7723 2
原创 Pandas详解十六之groupby分组后分开运算
约定import pandas as pdimport numpy as npgroupby分组后分开运算Groupby对象支持迭代,当我们分组后想保存分组结果而不想运算,或者分别对每组进行不同的运算,这时是十分有用的。1 创建df1=pd.DataFrame({'Data1':np.random.randint(0,10,5),'Data2':np.random.ran...
2018-05-31 16:11:52 21290 1
原创 Python线程Threading的简单教程
约定:import threadingimport timePython线程Threading的简单教程Python解释器使用了内部的GIL(全局解释器锁),在任意时刻只允许单个线程执行,无论有多少核,这限制了python只能在一个处理器上运行。当然使用多线程还是有好处的,不然也就没有存在的必要。当我们程序是I/O密集型,使用多线程会快很多。线程也挺好理解的,程序必定有个主线程,...
2018-05-20 08:43:48 5383 3
原创 python进程在Windows下运行没有结果的问题
python进程在Windows下运行没有结果的问题python进程在Win下运行有诸多限制,希望这个简单的博客有用。代码:#创建一个简单进程每隔5秒打印时间一次import multiprocessingimport timedef clock(wait_time): while True: print("now is %s"%time.ctime(...
2018-05-19 18:52:02 6701
原创 Pandas详解十五之利用GroupBy技术进行分组
约定:import pandas as pdimport numpy as npGroupBy分组对数据进行分组并对每个分组进行运算是数据分析中很重要的环节。该博客讲解了利用pandas的Groupby技术如何进行分组。下图简单介绍了分组的过程:创建DataFrame对象df1=pd.DataFrame({'Data1':np.random...
2018-04-26 21:30:24 19962 7
原创 Pandas详解十四之DataFrame对象的列和索引之间的转化
约定:import pandas as pdDataFrame对象的列和索引之间的转化我们常常需要将DataFrame对象中的某列或某几列作为索引,或者将索引转化为对象的列。pandas提供了set_index()/reset_index() 来供我们使用。一、列转化为索引df1=pd.DataFrame({'X':range(5),'Y':rang...
2018-04-26 21:16:09 19925 1
原创 Pandas详解十三之多级索引MultiIndex(层次化索引)
约定:import pandas as pdimport numpy as np多级索引多级索引(也称层次化索引)是pandas的重要功能,可以在Series、DataFrame对象上拥有2个以及2个以上的索引。 实质上,单级索引对应Index对象,多级索引对应MultiIndex对象。一、Series对象的多级索引多级索引Series对象的创...
2018-04-24 21:36:29 21330 3
原创 Pandas详解十二之排序和排名
约定:import pandas as pdimport numpy as np排序和排名根据条件对Series对象或DataFrame对象的值排序(sorting)和排名(ranking)是一种重要的内置运算。 接下来为大家介绍如何使用pandas对象的:sort_index() / sort_values() / rank() 方法。一、对Ser...
2018-04-24 20:37:43 12734 1
原创 2018年泰迪杯心得总结--最全的数学建模、数据挖掘的比赛入门
2018年泰迪杯总结——最全的数学建模、数据挖掘比赛入门期待已久的泰迪杯数据挖掘比赛从3月1日开启到今天4月15日已经结束了,不同于美赛等数学建模比赛,它耗时更长,赛题难度更大,需要处理的数据更加庞大(奖金也超级丰厚hhh)。 笔者通过一个半月的投入、沉浸,收获颇丰,在此记录一番,希望对各位有兴趣参加下年的泰迪杯或相同类型的数学建模、数据挖掘比赛的童鞋们有实质帮助!一、队友的选择俗话...
2018-04-15 13:22:27 30560 19
原创 图的用途+panda绘图(三):六边箱图、饼图、矩阵散点图
约定%matplotlib inlineimport pandas as pdimport numpy as npimport matplotlib.pyplot as plt图的用途+pandas绘图一、六边箱图 Hexagonal Bin Plot六边箱图的用途六边箱图又名高密度散点图,如果数据点太密集,绘制散点图太过密集,六边箱图是更好的选择。如...
2018-04-15 00:01:49 2139
原创 图的用途+panda绘图(二):箱线图、面积图、散点图
约定:%matplotlib inlineimport pandas as pdimport numpy as npimport matplotlib.pyplot as plt图的用途+pandas绘图一、箱线图 Box Chart箱线图的用途箱线图(Boxplot)也称箱须图(Box-whisker Plot),它是用一组数据中的最小值、第一四分位数、...
2018-04-03 22:31:13 3007 1
原创 图的用途+pandas绘图(一):折线图、柱状图、直方图
约定:%matplotlib inlineimport pandas as pdimport numpy as npimport matplotlib.pyplot as plt图的用途+pandas绘图一、折线图 Line Chart折线图的用途排列在工作表的列或行中的数据可以绘制到折线图中。折线图可以显示随时间(根据常用比例设置)而变化的连续数据,因此...
2018-04-02 23:32:08 21593 4
原创 更改写入excel的pandas对象的时间格式
更改写入excel的pandas对象的时间格式若Series、DataFrame对象的列索引为时间序列,调用.to_excel()写入的时间格式如下:但我们通常需要更换时间格式,在此笔者提供了一种思路,不废话,直接贴代码:import pandas as pddf=pd.DataFrame({"A":range(4),"B":range(10,14)},index=pd.dat...
2018-03-25 15:53:24 8565 2
原创 Matplotlib下出现乱码的两种解决办法--FontProperties
Matplotlib下出现乱码的两种解决办法–设置FontProperties用matplotlib绘图时,常出现不显中文或乱码,原因是matplotlib.pyplot在显示时无法找到合适的字体。 解决办法一: 先把需要的字体(在系统盘C盘的windows下的fonts目录内)添加到FontProperties中。具体解决方法如下:from matplotlib.font_ma...
2018-03-21 23:49:09 15028 1
原创 Pandas详解十一之Fillna填充缺失数据
约定:import pandas as pdimport numpy as npfrom numpy import nan as NaN填充缺失数据fillna()是最主要的处理方式了。df1=pd.DataFrame([[1,2,3],[NaN,NaN,2],[NaN,NaN,NaN],[8,8,NaN]])df1代码结果: ...
2018-03-17 23:00:18 105094 3
原创 Pandas详解十之Dropna滤除缺失数据
约定:import pandas as pdimport numpy as npfrom numpy import nan as NaN滤除缺失数据pandas的设计目标之一就是使得处理缺失数据的任务更加轻松些。pandas使用NaN作为缺失数据的标记。使用dropna使得滤除缺失数据更加得心应手。一、处理Series对象通过dropna(...
2018-03-17 22:57:55 97162 3
原创 Pandas详解九之Drop丢弃指定轴的项
约定:import pandas as pdimport numpy as npDrop丢弃指定轴上的项丢弃某轴上项,只要有一个索引表或者列表即可。丢弃Series上的项:se1=pd.Series(range(10,15))se1.drop([2,3])代码结果:0 101 114 14dtype: int3...
2018-03-17 22:53:51 1703
原创 Pandas详解八之ReIndex重新索引
约定:import pandas as pdimport numpy as npReIndex重新索引reindex()是pandas对象的一个重要方法,其作用是创建一个新索引的新对象。一、对Series对象重新索引se1=pd.Series([1,7,3,9],index=['d','c','a','f'])se1代码结果:d 1...
2018-03-17 22:47:52 63662 1
原创 Pandas详解七之DatetimeIndex、PeriodIndex和TimedeltaIndex时间序列
约定:import pandas as pdimport numpy as np时间序列上节介绍的Timestamp、Period和Timedelta对象都是单个值,这些值都可以放在索引或数据中。作为索引的时间序列有:DatetimeIndex、PeriodIndex和TimedeltaIndex,它们都可以作为Series和DataFrame的索引。一、创建Date...
2018-03-17 22:34:30 39400
原创 Pandas详解六之Timestamp、Period、Timedelta时间对象
约定:import pandas as pdimport numpy as np一、时间点TimestampTimestamp是从Python标准库的datetime类继承过来的,表示时间轴上的一个时刻。它提供了方便的时区转换功能。调用Timestamp.now()获取当前时间,但注意的是,它是不包含时区信息的本地时间。now=pd.Timestamp.now...
2018-03-17 22:28:41 25490
原创 Pandas详解五之下标存取
约定import pandas as pdimport numpy as np下标存取Series和DataFrame提供了丰富的下标存取方法,除了直接用[ ],还有.loc[ ]、.iloc[ ]、.at[ ]、.iat[ ]和.ix[ ]等存取方式。np.random.seed(42)df1=pd.DataFrame(np.random.ran...
2018-03-16 13:08:54 6549 2
原创 Pandas详解四之MultiIndex对象
约定import pandas as pdfrom pandas import DataFrameimport numpy as npMultiIndexMultiIndex表示多级索引,它是从Index继承过来的,其中多级标签用元组对象来表示。一、创建MultiIndex对象创建方式一:元组列表m_index1=pd.Index([("...
2018-03-16 13:03:24 49338 10
原创 Pandas详解三之Index对象
约定import pandas as pdfrom pandas import DataFrameimport numpy as npIndexIndex对象保存着索引标签数据,它可以快速找到标签对应的整数下标,其功能与Python的字典类似。dict1={"Province":["Guangdong","Beijing","Qinghai","Fu...
2018-03-16 09:51:34 45568 3
原创 学习Python的做笔记神器——Jupyter Notebook
学习Python的做笔记神器——Jupyter Notebook给想学好Python的同学们安利一波,Jupyter Notebook是学习Python最好的做笔记环境,没有之一哦。Jupyter Notebook(又称IPython Notebook)是一个交互式的笔记本,支持运行超过40种编程语言。将介绍Jupyter Notebook的主要特点,了解为什么它能成为人们创造优美的可交互...
2018-03-16 09:38:49 97738 11
原创 Pandas详解二之DataFrame对象
约定import pandas as pdfrom pandas import DataFrameimport numpy as npDataFrameDataFrame是一个表格型的数据结构,既有行索引(保存在index)又有列索引(保存在columns)。一、DataFrame对象常用属性:创建DateFrame方法有很多(后面再介绍),最...
2018-03-15 19:38:46 13358
原创 Pandas详解一之Series对象
约定:import pandas as pdfrom pandas import Series,DataFrameimport numpy as npSeries一、Series属性及方法Series是Pandas中最基本的对象,Series类似一种一维数组:se1=Series([4,7,-2,8])se1代码结果:0 41 7...
2018-03-15 19:20:19 14098 3
原创 创建朴素贝叶斯分类器、交叉验证
朴素贝叶斯分类器其知识详见:http://blog.csdn.net/batuwuhanpei/article/details/51910349导入模块import numpy as npfrom sklearn.naive_bayes import GaussianNBfrom func_plot_classifier import plot_classifier加
2018-02-01 21:27:46 3840 1
SQL高频面试题 100讲
2022-11-21
史上最全python电子书籍打包
2018-04-24
利用Python进行数据分析(Python For Data Analysis中文版)高清版PDF
2018-03-16
Jupyter Notebook简单快捷键训练
2018-03-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人