数据处理
分享、记录Python数据处理中的问题
T_110140
有些敏感文章,加关注才可见~欢迎各位加关注,相互交流~
展开
-
numpy 数组形状操作
numpy数组形状操作用法总结原创 2022-04-16 21:00:09 · 506 阅读 · 0 评论 -
np.random.rand()、np.random.randint()与 np.random.random()的区别和用法
当使用numpy中random去产生随机数的时候,会发现这三个函数很相似。那么它们之间有什么区别呢?1. np.random.random()返回半开放区间[0.0,1.0]中的随机浮点。与np.random.rand()作用一样,只是参数不同而已。random.random(size=None)Return random floats in the half-open interval [0.0, 1.0). Alias for random_sample to ease forward-p原创 2022-04-16 16:55:53 · 3911 阅读 · 0 评论 -
matplotlib:绘制辅助线(axvline、axhline)
如何在子图中画出辅助线horizontal 水平,画水平线。linestyle 线条的类型。c 代表线条的颜色。ax1.axhline(0.95,linestyle='--',c='grey')vertical 垂直,画垂直线。 ax1.axvline(minInd95,linestyle='--',c='grey')例:#累计分布fig,ax1 = plt.subplots()ax1.plot(NewGrouped['R'],NewGrouped['cumPer'])#这里为何不原创 2022-03-23 21:21:36 · 5313 阅读 · 0 评论 -
Pandas: pd.reset_index(drop=False)的用法
pd.reset_index()的作用:用来重新设置索引index。pd.reset_index(drop=False),False 表示不删除之前的index。pd.reset_index(drop=True),True表示删除之前的index。原创 2022-03-23 16:47:36 · 4396 阅读 · 0 评论 -
datetime.strptime()
由字符串格式转化为日期格式的函数为: datetime.datetime.strptime()由日期格式转化为字符串格式的函数为: datetime.datetime.strftime()datetime.strptime() 类方法可根据一个表示时间的字符串和对应的格式字符串创建来一个 datetime 对象。对于 datetime.strptime() 类方法,默认值为 1900-01-01T00:00:00.000: 任何未在格式字符串中指定的部分都将从默认值中提取。指令含义示例原创 2022-03-22 16:07:58 · 15401 阅读 · 0 评论 -
import os 的用法
os 操作系统借口模块。os.path 模块主要用于获取文件的属性。os.path.abspath(path) 返回绝对路径import ospath = os.path.abspath("..") #返回绝对路径path1 = path+"\\data\\OrderData.csv"import os print( os.path.basename('/root/runoob.txt') ) # 返回文件名print( os.path.dirname('/root/runoob.原创 2022-03-22 12:49:46 · 3214 阅读 · 0 评论 -
Numpy:.astype() 、 .dtype() 与 type()
type() 查看数据类型.astype() 转换数据类型.dtype() 查看数组的数据类型原创 2022-01-17 09:10:54 · 537 阅读 · 0 评论 -
Pandas:波浪号“~”在 pandas 中的用法
“~ ”在pands中表示否定的意思。In[1]:s = pd.Series(range(-3, 4))Out[1]: s0 -31 -22 -13 04 15 26 3In[2]:s[~(s < 0)]Out[2]: 3 04 15 26 3dtype: int64其它:| for or, & for and参考:Boolean Indexing,https://pandas.pydata原创 2022-01-09 19:54:47 · 4381 阅读 · 0 评论 -
Jupyter notebook 文本标注符号
"""多行标注多行标注"""原创 2022-01-02 20:03:02 · 1028 阅读 · 0 评论 -
Pandas:axis=1与axis=0
当使用pandas进行行列计算时,经常会搞混axis=1,与axis=0的区别。具体可以参考下图,简单可以记忆为,axis=1 为跨列进行计算,也就是说列们进行捆绑,然后进行计算。例如,df.sum(axis=1),即求的是co1到co4的列值合。(“1”长得就想一列,故形象记忆等于1时,就是跨列)同理,axis=0就是跨行计算。计算方向为将所有行捆绑起来进行求和或者求平均等计算。图来自网络,侵删,...原创 2021-12-22 14:56:19 · 1059 阅读 · 0 评论 -
pandas:DataFrame列重新命名
1.从文件读取的时候,直接重新命名. pd.read_excel(names=[,])test1 =pd.read_excel("assets/Energy Indicators.xls",header=None,skiprows=18,usecols=[2,3,4,5],na_value=['...'],names=['Country', 'Energy Supply', 'Energy Supply per Capita', '% Renewable'])2.在原有的DataFrame上重新命名。原创 2021-12-15 21:01:29 · 6924 阅读 · 0 评论 -
pandas:str.replace() 文本清理
str.replace()可以一次处理一整个Series。str.replace()的正式形式为 Series.str.replace(pat, repl) ,其中pat为想要寻找的模式,一般为正则表达式,repl为要替换进去的字符串或函数。pd.str.replace(r"city\s+7", "city")...原创 2021-12-15 14:25:39 · 1407 阅读 · 0 评论 -
Python字符串前面加‘u’的作用
作用: u后面字符串以Unicode格式进行编码,一般用在中文字符串前面,防止因为源码储存格式问题,导致再次使用时出现乱码。data_ori = pd.read_csv('./heros7.csv', encoding = 'gb18030')features = [u'最大生命',u'生命成长',u'初始生命',u'最大法力', u'法力成长',u'初始法力',u'最高物攻',u'物攻成长' ]...原创 2021-11-11 13:39:59 · 3144 阅读 · 0 评论 -
pandas 删除重复值
drop_duplicates(subset,keep,inplace,ignore_index)DataFrame.drop_duplicates(subset=None, keep='first', inplace=False, ignore_index=False)subset:列的标签,或者传入一个标签列表,subset=[‘a’,‘b’]这种,只有指定列都重复的时候才会删除。keep:选择需要保留的重复值,有三个选项, - first:保留第一次出现的行; - last:保留最后一次出原创 2021-09-27 09:55:35 · 6126 阅读 · 0 评论 -
K-means笔记
K-means算法算法过程:从N个样本数据中随机选取K个对象作为初始的聚类中心。分别计算每个样本到这各个聚类中心的距离,并将对象归于距离最短的聚类群中。所有样本计算完后,重新计算K个聚类中心。与前一次计算得到得聚类中心比较。如果聚类中心没有改变,则进行步骤5。若聚类中心改变了,则重复步骤2.当质心不发生变化时停止输出聚类结果。对于连续数据,聚类中心取该簇的均值。对于分类变量,均值可能无定义,可以使用K-众数方法。...原创 2021-08-23 16:08:48 · 134 阅读 · 0 评论