Python
浮点型队友
志闲少欲,心安不惧,形劳而不倦,气从以顺,各从其欲,皆得所愿
展开
-
是什么让我放弃Jupyter notebook 转投 Spyder
Jupyter notebook 和 Spyder 选哪个?Jupyter 真是带给我一段不错的Python Coding 时间,但是后来发现代码结构稍微复杂点、需要引入自定义模块的时候,jupyter 开始有点考验耐心了。所以转投了 Spyder,就是anaconda自带的编译器。真有点不舍 jupyter。Spyder 的配置并使用自定义模块,非常傻瓜化,无论是同文件目录下的调用,还是跨文...原创 2019-04-22 20:02:44 · 14520 阅读 · 3 评论 -
从pandas DataFrame获取某个单元格值
我有一个简单的DataFrame,我需要获得特定单元格的值.以下是我的DataFrame示例:>>> airports.sample(5) iata name city state country2144 M15 Perry County Linden TN USA2391 N69 Stormville Stormville NY USA861 ...原创 2021-02-16 22:13:31 · 5819 阅读 · 1 评论 -
Python Dataframe对符合条件的行或列应用函数
Python Dataframe对选定的行和列应用函数(对符合条件的行和列应用函数)func是要应用的函数;axis=1表示按行操作;代码如下:df['A'] = df.apply(lambda x: func(x.B) if np.isnan(x.A) else x.A, axis=1)原创 2020-11-08 03:06:05 · 1655 阅读 · 0 评论 -
UnicodeDecodeError 万能解决办法
报错:UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xa4 in position 14: invalid start byte解决办法很简单,只需要在另存为的时候,选择编码方式为:UTF-8即可。关于UnicodeDecodeError: ‘gbk’ codec can’t decode byte的解决办法将with open(file) as f: 改成 with open(file, ‘r’, encoding=‘utf-8’)原创 2020-06-25 02:12:33 · 9996 阅读 · 1 评论 -
【python】使用 Beautifulsoup 修改html标签属性,感觉比正则表达式帅多了
要修改的index.html文件:<head><link href=“https://www.highcharts.com/highslide/highslide.css” rel=“stylesheet” /><script type=“text/javascript” src=“https://ajax.googleapis.com/ajax/libs/jquery/1.9.1/jquery.min.js”><script type=“text/j.原创 2020-05-24 22:30:57 · 4576 阅读 · 0 评论 -
最简单优雅修改jupyter自带主题字体大小颜色(不需要插件不需要第三方theme)
..因个人原因,还是喜欢jupyter多一点,写代码干扰较少,能让人集中精力思考。但是第三方的theme其实细节方面做的并不如意。所以还是jupyter原装自带主题的基础上改改字体、字号、颜色等比较舒服。搜索了很多,修改jupyter自带主题,总结下来下面这个方法最懒最优雅(一切尽在我拿捏):win系统的朋友,打开anaconda安装目录下这个文件:D:\Program\anaco...原创 2019-11-30 14:12:17 · 2875 阅读 · 3 评论 -
使用 GA API 获取数据(通过代理)以及问题排查
出错信息:TimeoutError: [WinError 10060] 由于连接方在一段时间后没有正确答复或连接的主机没有反应,连接尝试失败。错误排查过程:排除网络设置错误。确保系统设置如下(win7/win10): Internet属性–>局域网设置–>自动检测设置准备好一个代理IP和端口号,比如这样:192.168.2.207:808用以下代码来检查你的代理ip是否...原创 2019-08-29 11:17:54 · 1581 阅读 · 0 评论 -
O2O优惠券预测题目拆解
1. Table1 《用户线下消费和优惠券领取行为 》都有哪些字段?各个字段的缺失值占比?为了方便快速分析,抽取了1万行数据进行分析。首先,可以看到商户ID和用户ID都没有缺失的;其次是离店距离缺失的最少,这个信息可能根据手机定位等手段,获取的很充分;然后是描述优惠券的三个字段(ID、领取日期、折扣率),缺失值数量是相等的;最后是消费日期,高达55%的缺失值,说明大概有多一半的用户都没...原创 2019-07-22 22:21:30 · 371 阅读 · 0 评论 -
【学习经典】时间序列处理(DatetimeIndex)
时间序列数据的意义取决于具体的应用场景,主要有以下几种:时间戳(timestamp),特定的时刻。固定时期(period),如2007年1月或2010年全年。时间间隔(interval),由起始和结束时间戳表示。时期(period)可以被看做间隔(interval)的特例。转载 2019-07-17 00:03:05 · 23263 阅读 · 1 评论 -
【学习经典】python 数据聚合与分组运算(part 1)
对数据集进行分组并对各组应用一个函数(无论是聚合还是转换),通常是数据分析工作中的重要环节。在将数据集加载、融合、准备好之后,通常就是计算分组统计或生成透视表。pandas提供了一个灵活高效的gruopby功能,它使你能以一种自然的方式对数据集进行切片、切块、摘要等操作。关系型数据库和SQL(Structured Query Language,结构化查询语言)能够如此流行的原因之一就是其能够方便...转载 2019-07-01 00:56:28 · 6666 阅读 · 2 评论 -
【学习经典】python 数据聚合与分组运算(part 2)
4. 透视表和交叉表透视表(pivot table)是各种电子表格程序和其他数据分析软件中一种常见的数据汇总工具。它根据一个或多个键对数据进行聚合,并根据行和列上的分组键将数据分配到各个矩形区域中。在Python和pandas中,可以通过本章所介绍的groupby功能以及(能够利用层次化索引的)重塑运算制作透视表。DataFrame有一个pivot_table方法,此外还有一个顶级的pandas...转载 2019-07-01 18:54:21 · 379 阅读 · 0 评论 -
怎样用非数学语言讲解贝叶斯定理(Bayes theorem)
https://www.matongxue.com/madocs/279.html怎样用非数学语言讲解贝叶斯定理(Bayes theorem)?一机器在良好状态生产合格产品几率是90%,在故障状态生产合格产品几率是30%,机器良好的概率是75%,若一日第一件产品是合格品,那么此日机器良好的概率是多少?这是贝叶斯定理的一个典型应用。如何在逻辑上进行推理,而不套用公式得到答案呢?这是我们今天的工...转载 2019-06-12 01:24:32 · 965 阅读 · 0 评论 -
使用pandas和seaborn绘图(数据可视化)
上次发了一篇 matplotlib API 可视化入门 ,matplotlib实际上是一种比较低级的工具。pandas自身就有内置可视化方法,用于简化从DataFrame和Series绘制图形。另一个库seaborn(https://seaborn.pydata.org/),由Michael Waskom创建的静态图形库。Seaborn简化了许多常见可视类型的创建。线型图Series和Dat...原创 2019-06-16 22:37:35 · 6476 阅读 · 0 评论 -
jupyter自定义字体和大小、主题安装实例及效果图
我目前的jupyter notebook字体是按这样配置的:jt -t grade3 -T -f source -tf robotosans -tfs 12 -nf robotosans -nfs 13 -cellw 90%这个命令的详解如下: jt 安装主命令 -t grade3 安装grade3主题 ...原创 2018-11-23 23:01:35 · 9648 阅读 · 4 评论 -
【Python】np.where用法实例:求每行第一个不为空的单元格值
# 求每行第一个不为空的单元格值import pandas as pdimport numpy as npdf = pd.DataFrame({"第一列":[100, np.NaN, 500, np.NaN, 120 ], "第二列":[200, 200, np.NaN, 200, 150], "第三列":[np.Na...原创 2019-03-19 10:08:33 · 4042 阅读 · 0 评论 -
用贝叶斯公式计算甲箱子被选的概率(附计算过程以及代码)
直接用套用贝叶斯公式来计算。但必须定义清楚A,B事件。令事件B为选择甲箱子,令事件A为得到8红4绿。from scipy.special import perm, combc = comb(12,8)P_AB=c*pow(0.7,8)*pow(0.3,4)print("P(A|B)=",P_AB)P_B=0.5print("P(B)=",P_B)P_A=0.5*c*(pow(0.7,8)*pow(0.3,4)+pow(0.7,4)*pow(0.3,8))print("P(A)=",原创 2019-06-13 01:51:03 · 1165 阅读 · 0 评论 -
python快速计算排列组合,附实例
#调用scipy科学计算包中计算排列组合(permutation and combination)的模块from scipy.special import perm, comb#从3个人中抽取任意两人去排队抢优衣库,有多少种情形(注意要排队!):p = perm(3,2) #从3个人中抽取任意两人组成好基友,有多少种情形(基友之间不排队):c = comb(3,2) print(p,c...原创 2019-06-07 11:14:02 · 10504 阅读 · 1 评论 -
如何通俗地理解概率论中的「极大似然估计法」?
我们假设硬币有两面,一面是“花”,一面是“字”。一般来说,我们都觉得硬币是公平的,也就是“花”和“字”出现的概率是差不多的。如果我扔了100次硬币,100次出现的都是“花”。在这样的事实下,我觉得似乎硬币的参数不正常。极有可能两面都是“花”!这种通过事实,反过来猜测硬币的情况,就是似然。通过事实,推断出最有可能的硬币情况,就是最大似然估计。1 概率vs似然让我们先来比较下概率和似然...转载 2019-06-08 17:15:54 · 19311 阅读 · 13 评论 -
求解极大似然估计,一共有几步?
前提知识阅读本文之前,需要了解似然函数相关的概念,详见另一篇文章 如何通俗地理解“最大似然估计法”?最大似然估计的目的就是:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。极大似然估计的原理极大似然估计是建立在极大似然原理的基础上的一个统计方法,是概率论在统计学中的应用。极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。通过若干次试验,观...原创 2019-06-08 21:52:38 · 7537 阅读 · 0 评论 -
matplotlib API 可视化入门 (附实例)
1. matplotlib API入门import matplotlib.pyplot as pltimport numpy as npdata=np.arange(10)plt.plot(data)plt.show()Figure和Subplotmatplotlib的图像都位于Figure对象中。你可以用plt.figure创建一个新的Figure:fig = plt.fig...转载 2019-06-15 11:58:18 · 1260 阅读 · 0 评论 -
【xpath】使用 descendant 定位子孙节点
..我们在使用selenium 的xpath方式定位某个元素时,如果这个元素前半部分的路径是确定的,后半部分的路径不确定,并且其中有个img节点是需要我们定位出来的,但是不知道它是第几级子孙节点,这时候就可以用下面的xpath路径写法,总结起来就是 ‘//确定的或固定节点/descendant::子孙节点’ 。descendant 是子孙后裔的意思。用这个办法的好处,就是不用管目标节点在...原创 2019-06-20 14:46:38 · 5368 阅读 · 1 评论 -
自定义dataframe时如何为个别元素赋空值和缺失值
#自定义dataframe时如何为个别元素赋空值import pandas as pdimport numpy as np#字符串类型的,使用None赋值为空值#数值类型的,使用numpy.NaN赋值为空值#时间类型的,使用pandas.NaT赋值为空值testframe = pd.DataFrame({'c1':[None, 'b', 'c'], ...原创 2018-11-25 17:39:54 · 11891 阅读 · 0 评论