自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

fff2zrx的博客

zrx的口水笔记本

  • 博客(179)
  • 资源 (4)
  • 收藏
  • 关注

原创 利用蒙特卡洛模拟求积分

我们现在想通过蒙特卡洛模拟求下面这个积分的值,这个积分比较简单,我们当然可以计算出来为4。而对于复杂的定积分我们则可以通过蒙特卡洛模拟来求对应积分值。下面我们拿这个积分举例蒙特卡洛模拟如何求积分。文章目录投点法求积分平均法求定积分参考链接投点法求积分即模拟很多点投到对应区间,如果在对应概率密度曲线下面,则计为1,否则为0,最后统计出1的比例。然后用x y对应范围组成的长方形面积S乘以这个比例即为所求积分。import randomx_min = 0.2x_max = 1num_samples

2021-09-09 16:49:03 44

原创 利用python进行假设检验

两总体均值Z检验自己实现def twoSampZ(u1, u2,sd1, sd2, n1, n2): from numpy import sqrt, abs, round from scipy.stats import norm pooledSE = sqrt(sd1**2/n1 + sd2**2/n2) z = (u1 - u2)/pooledSE pval = 2*(1 - norm.cdf(abs(z))) return round(z, 3), r

2021-09-02 11:11:30 15

原创 如何验证多组数据之间有无显著差异

利用方差分析和卡方分布验证多组数据之间的某些属性有无显著性差异,对于连续性属性可以用方差分析,对于离散型属性可以用卡方检验。方差分析单因素方差分析通过箱线图可以人肉看出10组的订单量看起来差不多,为了更科学比较10组的订单量有无显著差异,我们可以利用方差分析from statsmodels.formula.api import olsfrom statsmodels.stats.anova import anova_lmmodel = ols('orders~C(label)',data=.

2021-08-27 15:12:37 123

原创 sql笔试的疑难杂症

1.留存率/复购率计算2.行列互换3.一行变多行,多行变一行

2021-07-22 21:41:39 54 1

原创 小叮当的sql实战笔记

ps:记录一下实习中实际使用hive sql取数的一些心得和坑性能调优用group by 代替distinct去重,效率更高两个表连接时,把关联字段里更少的放前面,即小表left join 大表在内层做完集计或者筛选后再在外层连接效率会更高常犯错误case when时,else可以省略,end不可省略,但是else不省略的时候必须后面跟上一个值,不然就报错select后跟着的字段,最后一个字段后面不能加逗号...

2021-07-13 14:50:51 54

原创 pyspark使用的各种bug

1.SparkException: Python worker failed to connect back when execute spark action具体操作可见下图,来自here

2021-05-24 19:51:55 39

原创 小叮当四月折戟

上个月找数据分析的暑假实习,真是教我做人啊,分分钟让自我感觉还不错和浮躁的我认清了现实。投递下来,要么是压根没有笔试机会,要么是笔试完杳无音信,要么是面试下来也凉了。哼哧哼哧搞了一个月,最后有offer的也只是缺人的某电动汽车公司,还需要是日常实习,可是老板这里有项目现在没法过去,所以还不知道暑假人家是否还需要我。一个字,惨!不过这倒也让我明白了很多。1.自己没有未雨绸缪,没有早点明白现在互联网的竞争之激烈,跨行业还不早点去实习,被嫌弃没有实习经历2.自己掌握的东西还是太少了,很多东西还是需要多

2021-05-02 15:09:02 84

原创 pandas之groupby+带进度条的apply

from tqdm import tqdmtqdm.pandas(desc='pandas bar')outputs=case2.groupby(case2['ID']).progress_apply(lambda x:select_station(x))

2021-04-25 13:05:24 148 1

原创 geopandas常用笔记

1.如何从Python形状多边形中提取点/坐标?from shapely.geometry import Polygon#Create polygon from lists of pointsx = [list of x vals]y = [list of y vals]some_poly = Polygon(x,y)#Extract the point values that define the perimeter of the polygonx, y = some_poly.exteri

2021-04-12 15:29:02 50

原创 datawhale-异常检测打卡之Task 5:⾼维数据异常检测

随着维度的增加,数据空间的⼤小(体积)会以指数级别增⻓,使数据变得稀疏,这便是维度诅咒。例如基于邻近度的⽅法是在所有维度使⽤距离函数来定义局部性,但是,在⾼维空间中,所有点对的距离⼏乎都是相等的(距离集中),这使得⼀些基于距离的⽅法失效。在⾼维场景下,⼀个常⽤的⽅法是⼦空间⽅法。而集成是⼦空间思想中常⽤的⽅法之⼀,可以有效提⾼数据挖掘算法精度。集成⽅法将多个算法或多个基检测器的输出结合起来。其基本思想是⼀些算法在某些⼦集上表现很好,另⼀些算法在其他⼦集上表现很好,然后集成起来使得输出更棒。1 Fe.

2021-01-24 23:14:15 69

原创 用10行代码获取高德城市迁徙数据

又快过年了,作为传统的中国人,大部分人观念里过年还是要回家的,所以城市之间又要开始大规模开始迁入迁出了。话不多说,回到正题,之前爬过高德生活圈,这次分享一下如何爬取高德迁徙意愿数据(https://trp.autonavi.com/migrate/page.do),接口都很简单,没有做严格的反爬措施。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-DHm9mIOL-1611392755662)(https://imgkr2.cn-bj.ufileos.com/64e34854

2021-01-23 17:48:17 829 4

原创 如何将seaborn的palette调色板应用为cmap

1 cmapmatplotlib有自己定义的cmap,包括Sequential,Diverging,Cyclic,Qualitative几种定义好的,当然也可以自定义,更详细的可以查看官网Choosing Colormaps in Matplotlib2 paletteseaborn是另一个可视化的库,他也有一个很好用的palette调色板,种类比matplotlib更多,而且自定义更方便,更多可以查看官网:Choosing color palettes3 将palette应用为cmap那么我们如

2021-01-22 21:30:22 130 1

原创 datawhale-异常检测打卡之Task 4:基于相似度方法

在异常检测中,我们弱化了“噪声”和“正常数据”之间的区别,专注于那些具有有价值特性的异常值。在基于相似度的方法中,主要思想是异常点的表示与正常点不同。1 基于距离判断基于距离的异常检测有这样一个前提假设,即异常点的k近邻距离要远大于正常点。计算当前点与其他点的距离,一旦已识别出多于k个数据点与当前点的距离在阈值D之内,则将该点自动标记为非异常值。若是直接计算,需要计算每个点与其余点的距离,当数据量较大时,计算量非常大,因此需要利用基于单元、基于索引的方法加速计算。1.1 基于单元格在基于单元格的技

2021-01-21 23:14:01 55

原创 如何优雅地构造geodataframe

如何构造geodataframe1 通过经纬度构造1.1 geopandas.points_from_xy1.2 利用apply,shapely构造(更通用)2 通过wkt文本构造1 通过经纬度构造1.1 geopandas.points_from_xyimport pandas as pddf = pd.DataFrame( {'City': ['Buenos Aires', 'Brasilia', 'Santiago', 'Bogota', 'Caracas'], 'Count

2021-01-21 15:32:54 798 4

原创 datawhale-异常检测打卡之Task 3:线性模型

真实数据集中不同维度的数据通常具有高度的相关性,这是因为不同的属性往往是由相同的基础过程以密切相关的方式产生的。在古典统计学中,这被称为回归建模,一种参数化的相关性分析。变量的相关性分析主要分为2类,一类相关性分析试图通过其他变量预测单独的属性值,另一类方法用一些潜在变量来代表整个数据。前者的典型代表是线性回归,后者一个典型的例子是主成分分析。本文将会用这两种典型的线性相关分析方法进行异常检测。1.线性回归线性回归是统计学中一个重要的应用,这个重要的应用往往是指通过一系列自变量去预测一个特殊因.

2021-01-18 22:43:00 54

原创 datawhale-异常检测打卡之Task 2:基于统计学

基于统计学的方法一般是假定正常的数据对象由一个统计模型产生,而不遵守该模型的数据是异常点。统计学方法的有效性高度依赖于对给定数据所做的统计模型假定是否成立。根据如何指定和学习模型,异常检测的统计学方法可以划分为两个主要类型:参数方法和非参数方法参数方法假定正常的数据对象是由某些参数的参数分布产生,该参数分布会给出对于每个点的产生的概率。概率越小,则该点越可能是异常点非参数方法并不假定先验统计模型,而是试图从输入数据确定模型。1.参数方法基于正态分布的一元异常点检测仅涉及一个属性或变量的.

2021-01-15 20:49:30 74

原创 datawhale-异常检测打卡之Task 1:异常检测介绍

1. 异常检测是什么异常检测(Outlier Detection),就是识别出来与正常或者说大多数数据差异较大的数据。如识别信用卡欺诈,工业生产异常,网络流里的异常等。点异常(离群)指的是少数个体是异常的,大多数是正常的,例如正常人与病人的健康指标上下文异常(特殊场景离群)指的是在特定情境下个体是异常的,在其他情境下都是正常的,例如在特定时间下的温度突然上升或下降群体异常(一堆坏人里的好人)指的是在群体集合中的个体实例出现异常的情况,而该个体自身可能并不是异常例如社交网络中虚假账号形成

2021-01-12 17:45:40 74

原创 Coursea-用MySQL管理大数据-Week4

subqueries子查询derived table 派生表1 子查询子查询要求:子查询必须用括号括起来子查询中不能在使用ORDER BY,在包含子查询的外部查询中可以使用ORDER BY子查询若在SELECT或WHERE子句中使用时返回多行,则必须与用于处理多个值的运算符(如IN)结合使用。 否则,SELECT或WHERE中的子查询只能输出不超过1行。1.1 即时计算-标量子查询1.2 判断表之间某字段组成的集合关系IN和NOT IN- inSELECT COUNT(*)FRO

2021-01-07 14:05:48 73

转载 ie浏览器 “嗯...无法访问页面 尝试此操作...”的解决办法

转载自:https://www.cnblogs.com/mmit/p/12579652.html昨天想记录一下这个解决方法,但是我想确认一下是不是这个原因,今天确认是了。就是我在访问人家github页面的时候,(但是在访问其他页面是就比较顺畅)一直显示“嗯...无法访问此页面”,换了其他浏览器也同样如此,如下图所示:所以我觉得不是网络的问题,也不是浏览器的问题,并且点击在必应上搜索该网址,之前访问时还可以访问,但是这次也不行了,时而可以,时而不可以。于是我上网搜了...

2021-01-04 19:55:07 1880

原创 Coursea-用MySQL管理大数据-Week3

1 group by使用group by 语句时,select语句中只能包含用于集计的列,带集计函数的列,否则即使语句不报错,结果也是跟查询本意所不符合的由于SQL语句中的执行顺序跟书写顺序并不一致,所以如果尚未运行SELECT语句,则别名或派生字段将不可用(某些数据库系统(如MySQL)已经找到解决此问题的方法)。 另一方面,SELECT是在ORDER BY子句之前执行的。 这意味着大多数数据库系统应该能够在ORDER BY子句中使用别名和派生字段。SQL书写顺序&&a

2021-01-03 20:54:13 114 3

原创 datawhale-sql打卡之Task 6:综合练习

练习一: 各部门工资最高的员工(难度:中等)SELECT Department,Name,SalaryFROM Employee as e1left join Department as d1on e1.DepartmentId=d1.IdWHERE Salary in(SELECT MAX(Salary) as max_salary_deptFROM Employee as e1left join Department as d1on e1.DepartmentId=d1.IdGr

2020-12-27 21:34:02 65

原创 datawhale-sql打卡之Task 5:SQL高级处理

目录1 什么是窗口函数?2 窗口函数种类2.1 专用窗口函数RANK函数DENSE_RANK函数ROW_NUMBER函数2.2 将聚合函数用于窗口函数2.3 窗口函数的的应用 - 计算移动平均3 GROUPING运算符练习题1 什么是窗口函数?窗口函数也称为OLAP函数,即online analyticall processing常规的SELECT语句都是对整张表进行查询 而窗口函数可以让我们有选择的去某一部分数据进行汇总、计算和排序<窗口函数> OVER ([PARTITION B

2020-12-25 17:24:31 82

原创 datawhale-sql打卡之Task 4:集合运算

1 表的加减法表、视图和查询的执行结果都是记录的集合, 其中的元素为表或者查询结果中的每一行在标准 SQL 中, 分别对检索结果使用 UNION, INTERSECT, EXCEPT 来将检索结果进行并,交和差运算, 像UNION,INTERSECT, EXCEPT这种用来进行集合运算的运算符称为集合运算符UNIONSELECT product_id, product_name FROM product UNIONSELECT product_id, product_name FRO

2020-12-22 22:01:37 63

原创 datawhale-sql打卡之Task 3:复杂一点的查询

视图视图是一个虚拟的表,不同于直接操作数据表,视图是依据SELECT语句来创建的(会在下面具体介绍),所以操作视图时会根据创建视图的SELECT语句生成一张虚拟表,然后在这张虚拟表上做SQL操作。图片来源:《sql基础教程第2版》视图的优点可以将频繁使用的SELECT语句保存以提高效率。可以使用户看到的数据更加清晰。可以不对外公开数据表全部字段,增强数据的保密性。可以降低数据的冗余创建视图CREATE VIEW productsum (product_type, cnt_prod

2020-12-20 22:14:35 123 2

原创 用10行python代码获取全国城市交通生活圈

今天在网上冲浪看到一个很花哨的数据,全国各城市主要商圈从早上6点到晚上10点的20min,30min,45min,60min,90min生活圈轮廓。1 获取思路按下F12,点击淮海路可以看到出现一个网站,他就是我们要找的接口内容是通过get请求直接获取的,接口是https://trp.autonavi.com/ajax/life/circle.do?districtId=B00156EVQJ&dir=0&timeIndex=8点击网页上的目的地,发现接口里dir变成了1..

2020-12-17 20:02:52 245 2

原创 datawhale-sql打卡之Task 2:基础查询与排序

基本查询从表中选取符合条件的数据SELECT <列名>,…… FROM <表名> WHERE <条件表达式>;SELECT * 代表查询全部列SQL中可以随意使用换行符,不影响语句执行(但不可插入空行),以分号;结尾设定汉语别名时需要使用双引号(")括起来。在SELECT语句中使用DISTINCT可以删除重复行。注释是SQL语句中用来标识说明或者注意事项的部分。分为1行注释"-- “和多行注释两种”/* */"。-- 想要查询出全部列时,

2020-12-17 12:32:05 87

原创 datawhale-sql打卡之Task 1:初识数据库

数据库数据库是将大量数据组织起来,以便高效访问的数据集合(DB,Data base)用来管理数据库的软件叫做数据库管理系统(DBMS,Data base management system)

2020-12-15 11:03:50 81

转载 python中如何拆分列表

names=[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15]n=3 #将列表每3个组成一个小列表,for i in range(0, len(names), n): name=names[i:i + n] print(name)上面的例子是正好是分割间隔的整数倍,分割完毕但如果不是分割间隔的整数倍时,上面的代码能否奏效呢?names=[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16]n=3 #将列表每3个

2020-12-03 17:35:16 1757

转载 python- 变量区变量保存与加载

方法一推荐一个很简单又好用的保存python变量区变量的模块:dillhttps://pypi.org/project/dill/使用举例,保存变量区变量到文件:import dilldill.dump_session('file_name.pkl')加载文件内容到变量区dill.load_session('file_name.pkl')方法二如果想保存某个或多个对象(变量),可以使用pickleimport picklef = open('store.pckl', 'wb')

2020-12-03 17:25:40 182

原创 常用绘图之箱型图

箱型图使用数据为鸢尾花数据集(http://archive.ics.uci.edu/ml/datasets/Iris)数据包含5列,分别是花萼长度、花萼宽度、花瓣长度、花瓣宽度、鸢尾花种类。鸢尾花属种类包含三种:iris-setosa, iris-versicolour, iris-virginica利用Matplotlib绘制 boxplot ()matplotlib.pyplot.boxplot(x, notch=None, sym=None, vert=None, whis=None,

2020-11-30 21:46:52 533 4

原创 常用绘图之饼图

饼图import matplotlib.pyplot as pltimport randomimport warningswarnings.filterwarnings('ignore')import matplotlib as mpl# 中文和负号的正常显示mpl.rcParams['font.sans-serif'] = ['Times New Roman']mpl.rcParams['font.sans-serif'] = [u'SimHei']mpl.rcParams['axes.

2020-11-30 14:48:27 162

转载 seaborn绘制heatmap

【seaborn.heatmap整理】用处:将数据绘制为颜色方格(编码矩阵)。引用形式:seaborn.heatmap(data, vmin=None, vmax=None, cmap=None, center=None, robust=False, annot=None, fmt=’.2g’, annot_kws=None, linewidths=0, linecolor=‘white’, cbar=True, cbar_kws=None, cbar_ax=None, square=False, x

2020-11-29 14:56:10 309

原创 如何将python开发环境复制到其他电脑上

当想把开发环境换到其他电脑或者服务器时,可以先使用freeze导出包的版本信息pip freeze > requirment.txt该文件会保存到当前用户文件夹下面然后可以在新电脑上通过这个txt文件进行安装即可(python的版本最好确保一致)pip install -r requirment.txt...

2020-11-20 16:14:42 759

原创 jupyter常用快捷键

模式转换在一个cell中,按下Enter,进入Edit模式,按下Esc,进入Command 模式编辑模式Esc:转入命令模式Shift+Enter:运行本单元,并定位到下一单元,新单元为编辑模式点+Tab:补全代码或查看提示Shift+Tab:在对象(方法)后使用,可查看该对象(方法)的属性和说明Ctrl+/:整行注释或注销注释命令模式Enter:转入编辑模式Ctrl+Home:定位到文件首Ctrl+End:定位到文件尾Shift+Enter:运行本单元,并定位到下一单元,新单元为编

2020-11-20 15:14:07 147

原创 sql学习(一): 数据库查询

数据库分类数据库的常见分类,是将数据库分为关系型数据库和非关系型数据库。将复杂的关系,以简单的二元形式进行表示,即用行和列的形式进行表示(表格形式),其中每一行叫做记录,列叫做字段。其中MySQL就是一种很常用的关系型数据库。数据库管理系统:DBMS关系型数据库管理系统(RDBMS)有Oracle、MySQL、SQL Server、DB2、IBM等。非关系型数据库管理系统(Nosql)有redis、Hbase、mongodb、neo4j等。MySQL是一个关系型的数据库管理系统。最初是由mysq

2020-11-18 21:23:25 280

原创 Qgis常用

1.Couldn’t load plugin ‘qgiscloud’ due to an error when calling its classFactory() methodDownload the (experimental) version fromhttp://plugins.qgis.org/plugins/ Then install the Plugin via plugins >manage and install plugins > install from zip

2020-11-16 11:30:59 180

转载 python生成指定时间段内的随机时间

method1import datetime,randomdef randomtimes(start, end, n, frmt="%Y-%m-%d %H:%M:%S"): stime = datetime.datetime.strptime(start, frmt) etime = datetime.datetime.strptime(end, frmt) time_datetime=[random.random() * (etime - stime) + stime for

2020-11-15 15:28:34 744

原创 pandas中数据的复制

这篇主要是记一下pandas中的对象复制操作用=号复制可以看到data1跟data的id是一样的如果此时改变data1或者data1中的一个,两者会一起变化,如下图所示可以看到,修改data1后,data也同步发生了变化,所以= 是让新的变量指向旧变量的地址,两个变量指向同一内容,改变这个内容,这两个变量都会改变。当然直接重新赋值data1或者data一套新数据的话,python会认为是在创建新对象,二者就不会同步了用copy复制可以看到,用copy复制的话,新对象data.

2020-11-15 15:06:40 1455

原创 数码宝贝们,再见了

小时候天天看的数码宝贝终于也出大电影,完结了。有人说,他的青春终于没有了。我倒是没这么矫情,但还是有点失落。剧中长大的代价就是被选中的孩子们要跟自己的数码宝贝分道扬镳,看起来好像很残忍,不过我们一路从小走到现在,当初一起看亚古兽究极进化的小伙伴,现在还有联系或者关系还是那么亲密的,又还剩下多少个呢。不过我们的朋友,我们的亚古兽们,同样还是将快乐充满我们人生的每一个阶段,留下些印象深刻的回忆,这就够啦。所谓人生就是充满未知充满遗憾,保持着好奇和热情的心,去跟我们的亚古兽们在未来再见!...

2020-11-09 20:41:49 156

原创 常用绘图之直方图

直方图matplotlib.pyplot.hist(x, bins=None, range=None, density=None, weights=None, cumulative=False, bottom=None, histtype=‘bar’, align=‘mid’, orientation=‘vertical’, rwidth=None, log=False, color=None, label=None, stacked=False, normed=None, *, data=None,

2020-10-13 21:02:36 353 2

shanghai_urban.csv

上海市各个地铁站的名称,所属线路名字,经纬度坐标,坐标是wgs84坐标系,包括部分在建,共449个地铁站;上海地铁poi

2020-05-18

双约束重力模型.rar

基于样例实现的交通分布之双约束重力分布模型, doublecon.m为运行主文件,剩下两个文件是定义的函数

2019-12-05

mobike_beijing_geohash.rar

数据来自摩拜练习赛https://www.biendata.xyz/competition/mobike_practice/,地理位置通过Geohash加密,可以通过开源的方法获得其经纬度数据,标注数据中包含300万条出行记录数据,覆盖超过30万用户和40万摩拜单车。数据包括骑行起始时间和地点、车辆ID、车辆类型和用户ID等信息。

2020-06-16

TensorFlow 安装whl文件

Tensorflow 在Windows下安装文件 只支持Python3.5 在Windows环境下 下载后切换cmd目录至文件所在目录,cmd中输入 pip install tensorflow-1.7.0-cp35-cp35m-win_amd64.whl

2018-04-27

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除