自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

浮点型队友

不知道你是否看过我之前的文章，如果你认为很烂，然后判断这篇博客也是很烂的，那很幸运，你使用了贝叶斯思维方式来思考问题了。

转载理解js中this

首先必须要说的是，this的指向在函数定义的时候是确定不了的，只有函数执行的时候才能确定this到底指向谁，实际上this的最终指向的是那个调用它的对象（这句话有些问题，后面会解释为什么会有问题，虽然网上大部分的文章都是这样说的，虽然在很多情况下那样去理解不会出什么问题，但是实际上那样理解是不准确的，所以在你理解this的时候会有种琢磨不透的感觉），那么接下来我会深入的探讨这个问题。为什么要学习this？如果你学过面向对象编程，那你肯定知道干什么用的，如果你没有学过，那么暂时可以不用看这篇文章，当然如果你

2021-04-07 23:50:33 233

翻译 bind()方法

Function.prototype.bind()方法bind()方法主要就是将函数绑定到某个对象，bind()会创建一个函数，函数体内的this对象的值会被绑定到传入bind()第一个参数的值，例如，f.bind(obj)，实际上可以理解为obj.f()，这时，f函数体内的this自然指向的是obj例子var a = { b : function(){ var func = function(){ console.log(this.c); } func(); }, c : '

2021-04-07 22:39:10 2894

翻译 React官网经典代码【计时器】的详解注释

先看 React 官网代码：class Clock extends React.Component { constructor(props) { super(props); this.state = {date: new Date()}; } componentDidMount() { this.timerID = setInterval( () => this.tick(), 1000 ); } component

2021-04-05 23:34:25 887

原创从pandas DataFrame获取某个单元格值

我有一个简单的DataFrame,我需要获得特定单元格的值.以下是我的DataFrame示例：>>> airports.sample(5) iata name city state country2144 M15 Perry County Linden TN USA2391 N69 Stormville Stormville NY USA861 ...

2021-02-16 22:13:31 6015 1

原创 Python Dataframe对符合条件的行或列应用函数

Python Dataframe对选定的行和列应用函数(对符合条件的行和列应用函数）func是要应用的函数；axis=1表示按行操作；代码如下：df['A'] = df.apply(lambda x: func(x.B) if np.isnan(x.A) else x.A, axis=1)

2020-11-08 03:06:05 1756

原创 UnicodeDecodeError 万能解决办法

报错：UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xa4 in position 14: invalid start byte解决办法很简单，只需要在另存为的时候，选择编码方式为：UTF-8即可。关于UnicodeDecodeError: ‘gbk’ codec can’t decode byte的解决办法将with open(file) as f: 改成 with open(file, ‘r’, encoding=‘utf-8’)

2020-06-25 02:12:33 10811 1

原创【python】使用 Beautifulsoup 修改html标签属性，感觉比正则表达式帅多了

要修改的index.html文件：<head><link href=“https://www.highcharts.com/highslide/highslide.css” rel=“stylesheet” /><script type=“text/javascript” src=“https://ajax.googleapis.com/ajax/libs/jquery/1.9.1/jquery.min.js”><script type=“text/j.

2020-05-24 22:30:57 4890

原创最简单优雅修改jupyter自带主题字体大小颜色（不需要插件不需要第三方theme）

..因个人原因，还是喜欢jupyter多一点，写代码干扰较少，能让人集中精力思考。但是第三方的theme其实细节方面做的并不如意。所以还是jupyter原装自带主题的基础上改改字体、字号、颜色等比较舒服。搜索了很多，修改jupyter自带主题，总结下来下面这个方法最懒最优雅（一切尽在我拿捏）：win系统的朋友，打开anaconda安装目录下这个文件：D:\Program\anaco...

2019-11-30 14:12:17 3277 3

原创使用 GA API 获取数据（通过代理）以及问题排查

出错信息：TimeoutError: [WinError 10060] 由于连接方在一段时间后没有正确答复或连接的主机没有反应，连接尝试失败。错误排查过程：排除网络设置错误。确保系统设置如下(win7/win10)： Internet属性–>局域网设置–>自动检测设置准备好一个代理IP和端口号，比如这样：192.168.2.207:808用以下代码来检查你的代理ip是否...

2019-08-29 11:17:54 1759

原创 O2O优惠券预测题目拆解

1. Table1 《用户线下消费和优惠券领取行为》都有哪些字段？各个字段的缺失值占比？为了方便快速分析，抽取了1万行数据进行分析。首先，可以看到商户ID和用户ID都没有缺失的；其次是离店距离缺失的最少，这个信息可能根据手机定位等手段，获取的很充分；然后是描述优惠券的三个字段（ID、领取日期、折扣率），缺失值数量是相等的；最后是消费日期，高达55%的缺失值，说明大概有多一半的用户都没...

2019-07-22 22:21:30 471

转载【学习经典】时间序列处理（DatetimeIndex）

时间序列数据的意义取决于具体的应用场景，主要有以下几种：时间戳（timestamp），特定的时刻。固定时期（period），如2007年1月或2010年全年。时间间隔（interval），由起始和结束时间戳表示。时期（period）可以被看做间隔（interval）的特例。

2019-07-17 00:03:05 24069 1

原创【SQL面试】求出各科成绩前三名的学生和成绩

..求出各科成绩前三名的学生和成绩，与相应的课程。正确的：select a.*from score as aleft join score as bon (a.sourceid = b.sourceid) and (a.score < b.score)group by a.sourceid, a.userid, a.scorehaving count(a.userid) ...

2019-07-05 17:43:42 7068 2

转载【学习经典】python 数据聚合与分组运算（part 2）

4. 透视表和交叉表透视表（pivot table）是各种电子表格程序和其他数据分析软件中一种常见的数据汇总工具。它根据一个或多个键对数据进行聚合，并根据行和列上的分组键将数据分配到各个矩形区域中。在Python和pandas中，可以通过本章所介绍的groupby功能以及（能够利用层次化索引的）重塑运算制作透视表。DataFrame有一个pivot_table方法，此外还有一个顶级的pandas...

2019-07-01 18:54:21 501

转载【学习经典】python 数据聚合与分组运算（part 1）

对数据集进行分组并对各组应用一个函数（无论是聚合还是转换），通常是数据分析工作中的重要环节。在将数据集加载、融合、准备好之后，通常就是计算分组统计或生成透视表。pandas提供了一个灵活高效的gruopby功能，它使你能以一种自然的方式对数据集进行切片、切块、摘要等操作。关系型数据库和SQL（Structured Query Language，结构化查询语言）能够如此流行的原因之一就是其能够方便...

2019-07-01 00:56:28 6891 2

原创【xpath】使用 descendant 定位子孙节点

..我们在使用selenium 的xpath方式定位某个元素时，如果这个元素前半部分的路径是确定的，后半部分的路径不确定，并且其中有个img节点是需要我们定位出来的，但是不知道它是第几级子孙节点，这时候就可以用下面的xpath路径写法，总结起来就是 ‘//确定的或固定节点/descendant::子孙节点’ 。descendant 是子孙后裔的意思。用这个办法的好处，就是不用管目标节点在...

2019-06-20 14:46:38 5792 1

原创使用pandas和seaborn绘图(数据可视化)

上次发了一篇 matplotlib API 可视化入门，matplotlib实际上是一种比较低级的工具。pandas自身就有内置可视化方法，用于简化从DataFrame和Series绘制图形。另一个库seaborn（https://seaborn.pydata.org/），由Michael Waskom创建的静态图形库。Seaborn简化了许多常见可视类型的创建。线型图Series和Dat...

2019-06-16 22:37:35 6785

转载 matplotlib API 可视化入门 (附实例)

1. matplotlib API入门import matplotlib.pyplot as pltimport numpy as npdata=np.arange(10)plt.plot(data)plt.show()Figure和Subplotmatplotlib的图像都位于Figure对象中。你可以用plt.figure创建一个新的Figure：fig = plt.fig...

2019-06-15 11:58:18 1477

原创用贝叶斯公式计算甲箱子被选的概率（附计算过程以及代码）

直接用套用贝叶斯公式来计算。但必须定义清楚A，B事件。令事件B为选择甲箱子，令事件A为得到8红4绿。from scipy.special import perm, combc = comb(12,8)P_AB=c*pow(0.7,8)*pow(0.3,4)print("P(A|B)=",P_AB)P_B=0.5print("P(B)=",P_B)P_A=0.5*c*(pow(0.7,8)*pow(0.3,4)+pow(0.7,4)*pow(0.3,8))print("P(A)=",

2019-06-13 01:51:03 1333

转载怎样用非数学语言讲解贝叶斯定理（Bayes theorem）

https://www.matongxue.com/madocs/279.html怎样用非数学语言讲解贝叶斯定理（Bayes theorem）？一机器在良好状态生产合格产品几率是90%，在故障状态生产合格产品几率是30%，机器良好的概率是75%，若一日第一件产品是合格品，那么此日机器良好的概率是多少？这是贝叶斯定理的一个典型应用。如何在逻辑上进行推理，而不套用公式得到答案呢？这是我们今天的工...

2019-06-12 01:24:32 1104

原创求解极大似然估计，一共有几步？

前提知识阅读本文之前，需要了解似然函数相关的概念，详见另一篇文章如何通俗地理解“最大似然估计法”?最大似然估计的目的就是：利用已知的样本结果，反推最有可能（最大概率）导致这样结果的参数值。极大似然估计的原理极大似然估计是建立在极大似然原理的基础上的一个统计方法，是概率论在统计学中的应用。极大似然估计提供了一种给定观察数据来评估模型参数的方法，即：“模型已定，参数未知”。通过若干次试验，观...

2019-06-08 21:52:38 7700

转载如何通俗地理解概率论中的「极大似然估计法」?

我们假设硬币有两面，一面是“花”，一面是“字”。一般来说，我们都觉得硬币是公平的，也就是“花”和“字”出现的概率是差不多的。如果我扔了100次硬币，100次出现的都是“花”。在这样的事实下，我觉得似乎硬币的参数不正常。极有可能两面都是“花”！这种通过事实，反过来猜测硬币的情况，就是似然。通过事实，推断出最有可能的硬币情况，就是最大似然估计。1 概率vs似然让我们先来比较下概率和似然...

2019-06-08 17:15:54 19592 13

原创 python快速计算排列组合，附实例

#调用scipy科学计算包中计算排列组合（permutation and combination）的模块from scipy.special import perm, comb#从3个人中抽取任意两人去排队抢优衣库，有多少种情形（注意要排队！）：p = perm(3,2) #从3个人中抽取任意两人组成好基友，有多少种情形（基友之间不排队）：c = comb(3,2) print(p,c...

2019-06-07 11:14:02 10661 1

原创【Python】数据处理第0步：关于空值和缺失值的处理

关于空值和缺失值：空值：在pandas中，的空值就是空字符串 “”缺失值：np.nan，pd.naT（缺失时间），或None如何定义缺失值、空值？如何判断是否缺失值？如何查找筛选缺失值、空值？见下代码：df = pd.DataFrame({"name": ['Alfred', None, 'Catwoman'], "toy": [np.nan, ...

2019-05-25 00:08:45 12912 2

原创【Python小竞赛】ARIMA算法预测三日后招商银行收盘价

本代码主要思路是利用ARIMA算法做时间序列预测预测目标是2019年5月15日A股闭市时招商银行600036的股价考虑到影响股价的因素的复杂性，以及金融投资的反身性理论，本次预测只使用了close的时间序列。更多的数据并没有什么用。导入数据并处理# 导入必须的模块import tushare as ts #使用的公开的数据import numpy as npimport panda...

2019-05-13 08:23:55 1647

原创【Python】List 列表中出现次数最多的元素（不使用第三方库）

..不使用第三方库，求出列表中出现次数最多的元素mylist = ['a', 'b', 'b', 'b', 'a', 'c']# 先算出每个元素出现的次数tmp = {i:mylist.count(i) for i in set(mylist)}# 找出次数最大的那个you_want = max(zip(tmp.values(), tmp.keys()))[1]you_want...

2019-04-25 15:22:57 3025 2

原创少即是多：数据分析从业者应该掌握的5个统计基础概念

本文讲述了数据科学家应当了解的五个统计基本概念：统计特征、概率分布、降维、过采样/欠采样、贝叶斯统计从高的角度来看，统计学是一种利用数学理论来进行数据分析的技术。象柱状图这种基本的可视化形式，会给你更加全面的信息。但是，通过统计学我们可以以更富有信息驱动力和针对性的方式对数据进行操作。所涉及的数学理论帮助我们形成数据的具体结论，而不仅仅是猜测。利用统计学，我们可以更深入、更细致地观察数据是如何...

2019-04-24 08:41:25 530

原创 Easy!! 穿透公司内网，在家远程访问jupyter notebook

我的环境和诉求：公司内网电脑A上装有anaconda，使用 jupter notebook编辑器。公司其他电脑可以通过浏览器，访问电脑A上的 jupyter Notebook。公司的内网也可以上外网（广域网）。我的诉求：如何将公司内网电脑A上的 jupyter notebook 发布到外网，让我在家里的电脑B上，实现对公司电脑A上的Jupyter的访问？因为是公司网络，所以没法配置路由器...

2019-04-22 20:42:44 2331 4

原创是什么让我放弃Jupyter notebook 转投 Spyder

Jupyter notebook 和 Spyder 选哪个？Jupyter 真是带给我一段不错的Python Coding 时间，但是后来发现代码结构稍微复杂点、需要引入自定义模块的时候，jupyter 开始有点考验耐心了。所以转投了 Spyder，就是anaconda自带的编译器。真有点不舍 jupyter。Spyder 的配置并使用自定义模块，非常傻瓜化，无论是同文件目录下的调用，还是跨文...

2019-04-22 20:02:44 14788 3

原创【Python】apply中的多参数函数，调整默认隐性参数位置

前提知识：re.search 的函数：re.search(pattern, string, flags=0)df.aplly()函数# 给定正则表达式，希望从df1['title']中找出匹配它的结果regstr = "color.*ball.*pen"# 自定义匿名函数 search_func，将re.search(x, y)的两个参数位置调换一下（为了df.appy函数中，能够正...

2019-04-19 18:13:57 5819 4

原创【Python】pymysql中如何引入正则表达式变量，实现模糊匹配查询

import pymysqlfrom sqlalchemy import *import re# 给定的字符串，希望能在数据库查到它的模糊匹配结果keywd = "color ball pen"# 打开数据库连接conn = create_engine('mysql+pymysql://username:password@192.168.2.xxx:3306/db??charset...

2019-04-19 17:37:58 1584

原创 mysql Left join 中的笛卡尔积

表A：select * from z_Atable表B：select * from z_Btable表B中有重复数据。A和B的內连接，即笛卡尔积：select * from z_Atable join z_Btable当on 条件为假时的内连接：select * from z_Atable left join z_Btable on 0表A作为左表，两表做左连接 ...

2019-04-19 15:15:29 2604

原创【Python】np.where用法实例：求每行第一个不为空的单元格值

# 求每行第一个不为空的单元格值import pandas as pdimport numpy as npdf = pd.DataFrame({"第一列":[100, np.NaN, 500, np.NaN, 120 ], "第二列":[200, 200, np.NaN, 200, 150], "第三列":[np.Na...

2019-03-19 10:08:33 4338

原创 “小数据”大腾挪：使用pandas.read_clipboard 从剪切板中获取数据

.在python中，有时候需要把几百行或者几千行的“小数据”频繁读取进来。专门为这样的数据建立一个excel或csv文件，然后用read_excel执行读写操作虽然也可行，但是显得特别笨重和繁复：你需要找一个合适的文件存放位置、需要为文件命名（头大！）、需要把长长的文件路径放到代码里并保证路径解析不出错、需要保证文件编码格式正确等等一系列望而却步的操作。今天介绍的这个 pandas.read_...

2019-02-22 14:38:19 5069

原创 mysql局部变量，会话变量，全局变量极简用法

.mysql中，变量分为三类，局部变量，会话变量，全局变量。局部变量主要用在函数以及存储过程中，定义：declare c int default 0;调用：select c; 记住变量名前不需要加@；会话变量仅对当前客户端连接有效，定义：set @var := ‘abc’;调用：select name = @var; 记住变量前加一个@；全局变量法力无边，什么时候都有效。定义：s...

2019-02-16 12:53:57 4191 5

原创数据预处理包括哪几步？

数据预处理的目的为了提高数据的质量为了让数据更好地适应特定的挖掘技术或工具数据预处理的主要内容数据清洗数据集成数据变换数据规约一、数据清洗1.1 缺失值处理删除记录，数据插补，不处理。常用的数据插补方法：- 均值，中位数，众数插补- 使用固定值- 回归方法（预测）- 插值法（拉格朗日插值法，牛顿插值法等）拉格朗日插值多项式：L(x)=∑i=0n(yi∏...

2019-02-12 20:01:51 33625 2

原创很机智的统计学概念：秩次和秩和

我们通过一个小例子来理解秩次和秩和。先看一组数据：A组4.76.42.63.25.2B组1.72.63.62.33.7什么是秩次按从小到大的顺序，把A组和B组数据统一排序（见下表），然后把它们的次序（即秩次）标记出来。如B组的1.7排序第一，秩次即为1；B组的2.3排序第二，秩次即为2；A组的2.6和B组2.6，分别给一个排序三，四，但是秩次是...

2019-01-11 12:16:17 35047 1

原创自定义dataframe时如何为个别元素赋空值和缺失值

#自定义dataframe时如何为个别元素赋空值import pandas as pdimport numpy as np#字符串类型的，使用None赋值为空值#数值类型的，使用numpy.NaN赋值为空值#时间类型的，使用pandas.NaT赋值为空值testframe = pd.DataFrame({'c1':[None, 'b', 'c'], ...

2018-11-25 17:39:54 12096

原创 jupyter自定义字体和大小、主题安装实例及效果图

我目前的jupyter notebook字体是按这样配置的：jt -t grade3 -T -f source -tf robotosans -tfs 12 -nf robotosans -nfs 13 -cellw 90%这个命令的详解如下： jt 安装主命令 -t grade3 安装grade3主题 ...

2018-11-23 23:01:35 9838 4

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除