自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 数据分析--辛普森悖论

辛普森悖论探究两种变量(比如新生录取率与性别)是否具有相关性的时候,会分别对之进行分组研究。然而,在分组比较中都占优势的一方,在总评中有时反而是失势的一方。原因解释:(1) 两个分组的录取率相差很大,就是说法学院录取率9.2%很低,而商学院53.3%却很高,另一方面,两种性别的申请者分布比重却相反,女生偏爱申请商学院,故商学院女生申请比率占83.3%,相反男生偏爱申请法学院,因此法学院女生申请比率只占16.7%。结果在数量上来说,录取率低的法学院,因为女生申请为数少,所以不录取的女生相对很少。而

2020-08-27 10:49:32 848

原创 Python刷题训练---第一天

递归请编写一个函数(允许增加子函数),计算n x m的棋盘格子(n为横向的格子数,m为竖向的格子数)沿着各自边缘线从左上角走到右下角,总共有多少种走法,要求不能走回头路,即:只能往右和往下走,不能往左和往上走。def f(m,n): if m == 0 or n == 0: return 1 ## 当m,n其中一个为0,则只有一条路径 return f(m,n-1) + f(m-1,n) while True: try: m.

2020-08-25 18:11:46 1940

原创 SQL10天训练---(一)分组排名

分组排名“成绩表”记录了学生的名字,课程,学期以及对应的成绩。现在需要查找每学期每门课程的前3高成绩对应的学期,课程,姓名和分数。题目属于分组排名类型,专用窗口函数包括rank, dense_rank, row_number,函数存在区别1. 考虑3种情况如果出现两人并列第一的情况,则同为第1名;且第3人名次为2;则使用dense_rank(); 结果是1,1,2,3如果出现两人并列第一,则同为第1名,但第3人名次为3,则使用ranK();结果是1,1,3 ,4如果出现两人并列

2020-08-22 01:37:03 408

转载 python 字典方法

Python 字典(Dictionary) get()方法描述Python 字典(Dictionary) get() 函数返回指定键的值,如果值不在字典中返回默认值。语法get()方法语法:dict.get(key, default=None)参数 key -- 字典中要查找的键。 default -- 如果指定键的值不存在时,返回该默认值。返回值 返回指定键的值,如果值不在字典中返回默认值None。以下实例展示了 get()函数的使用方法:#!/usr/bin/pythond

2020-08-15 15:49:56 177

原创 关联规则2:相关知识

关联规则的常用术语包括:项目(Item):I={I1,I2,…Im}是m个不同项目的集合,集合中的元素称为项目(Item)。项目可以看做是每次交易/订单的基本组成元素。例如在超市中,该项目可以是一个笔记本,一杯牛奶。事务(transaction):可以看做是消费者发生一笔交易中所有项目的集合。注意,此处项目是去重的。对于客户购物篮来说,发生的所有项目的集合:如{牛奶,面包,啤酒},{保湿水,洗面奶,发箍}。项集(Item set):在一次事务中,包含若干个项目的集合,一般会大于0个。

2020-08-03 15:57:42 276

原创 关联规则1:关联规则的应用场景

关联规则,作为十大机器学习算法之一,应用非常广泛。最经典的例子当然是“啤酒”和“尿布” 的故事。这个故事的背景是什么呢?

2020-08-03 11:33:30 6222

原创 离群值的识别方式

箱式图方法箱式图使用了变量的5个指标构成:最小值,下四分位数(P25),中位数(P50),上四分位数(P75)和最大值。P25,P50和P75构成“箱体”部分,“箱体”中间的横线表示P50,即中位数;如何观察异常值?四分位距IQR=Q3-Q1上限是非异常范围内的最大值, 上限=Q3+1.5IQR下限是非异常范围内的最小值,下限=Q1-1.5IQR拉依达准则适用于服从正态分布的数据。需要计算出数据的均值(μ)和标准差(σ),大于μ+3σ或小于μ-3σ的数值为离群值马氏距离法马氏距离法

2020-07-27 16:42:04 9486

原创 EXCEL 常用函数

1. countif函数对指定区域中符合指定条件的单元格计数的一个函数;该函数的语法规则如下:countif(range,criteria)参数:range 要计算其中非空单元格数目的区域参数:criteria 以数字、表达式或文本形式定义的条件例如:等于50=COUNTIF(数据区,"=50")参考链接: countif函数说明及使用.然而,countif仅能使用一个条件,countifs可以弥补这个遗憾**2. countifs函数用来统计多个区域中满足给定条件的单元格的个数;

2020-07-26 23:38:45 301

转载 python绘图笔记

matplotlib 绘制散点图和连续曲线,水平垂直辅助线,同窗多图(坐标轴长度范围、标题设置等)

2019-06-19 15:44:54 224

转载 公众号阅读内容分享

案例详解:欺诈检测中的代价敏感算法在传统的二分类分类问题中,我们的目的是尽量减少误分类,并用准确率、F度量或AUC-ROC曲线等统计量来衡量模型的性能。然而在某些问题中,为了降低总代价最好容许更多的误分类。如果误分类产生的代价因样本而异,我们应该采取基于实例的代价敏感学习方法。传统分类模型假定所有的误分类具有相同的代价,而代价敏感模型认为不同分类模型间和不同样本间的代价都不同。在本文中,我们...

2019-05-24 17:16:25 331

转载 隐马尔可夫模型解释(转移矩阵,发射矩阵,初始概率)

1.隐马尔可夫模型详解2. 简析EM算法(最大期望算法)3. 悉尼科技大学徐亦达课程。4. Python实现HMM(隐马尔可夫模型) 以下基础知识来源于该链接。5. HMM的一些基础知识:Xi是观测值,以上是一个观测值序列;如果观测值x的状态非常多(特别极端的情况是连续数据),转换函数会变成一个非常大的矩阵,如果x的状态有K个,那么转换函数就会是一个K*(K-1)个参数,而且对于连续变量...

2019-04-26 11:13:57 10322

转载 正则表达式汇总表

1.正则表达式汇总表转载网上别人的图,仅作为学习。

2019-04-26 10:47:56 129

转载 python random随机数用法

np.random.seed(int)给随机数对象一个种子值,用于产生随机序列。对于同一个种子值的输入,之后产生的随机数序列也一样。通常是把时间秒数等变化值作为种子值,达到每次运行产生的随机系列都不一样seed() 省略参数,意味着使用当前系统时间生成随机数np.random.seed(10)print random.random() #0.57140259469np.ran...

2019-03-27 19:08:42 357

转载 pandas 获取不符合条件/不包含某个字符串的dataframe

pandas 获取不符合条件/不包含某个字符串的dataframe问题来源:做项目时,想拿到不符合条件的所有数据,比如:通话类型有好多种(主叫、被叫、呼转……),现在想分析所有非主叫数据,那么问题就来了。方法一:df[~df.col.str.contains(word)]df = pd.DataFrame({"A": ["Hello", "this", "World", "apple"]})...

2019-03-23 09:09:21 16702

原创 np.random.random()函数 参数用法以及numpy.random系列函数大全

1.np.random.random()函数参数np.random.random((1000, 20))上面这个就代表一千个浮点数,从0-20中随机。2.numpy.random.rand()函数用法numpy.random.rand(d0, d1, ..., dn)生成一个[0,1)之间的随机浮点数或N维浮点数组。3.numpy.random.randn()函数用法:numpy...

2019-03-14 18:48:41 3567 2

原创 sklearn中的分类方法

### Multinomial Naive Bayes Classifier from sklearn.naive_bayes import MultinomialNBclf = MultinomialNB(alpha=0.01)clf.fit(train_x, train_y)### KNN Classifier from sklearn.neighbors impo...

2019-03-14 18:42:55 682

原创 pdf 转化为 txt文件

### 打开pdf文件 import sysimport importlibimportlib.reload(sys)from pdfminer.pdfparser import PDFParser,PDFDocument from pdfminer.pdfinterp import PDFResourceManager,PDFPageInterpre...

2019-03-14 15:32:33 206

转载 Python——DataFrame中,中文列的筛选

中文筛选的方法:筛选出A列重庆的行:data.A==‘重庆’ / data[‘A’]==‘重庆’筛选出A列包含重庆的行业(答案中有:重庆/北京和重庆):data.A.str筛选出A列分别是重庆和成都的行业:data.A.isin([‘重庆’,’成都’])筛选出在dataframe2的A列中包含dataframe1的B列的所有选项:data2.A.isin(data1.index....

2019-03-14 15:30:13 2988

转载 python 数据重塑stack,unstack,pivot

pandas中,这三种方法都是用来对表格进行重排的,其中stack()是unstack()的逆操作。某种意义上,unstack()方法和pivot()方法是很像的,主要的不同在于,unstack()方法是针对索引或者标签的,即将列索引转成最内层的行索引;而pivot()方法则是针对列的值,即指定某列的值作为行索引,指定某列的值作为列索引,然后再指定哪些列作为索引对应的值。因此,总结起来一句话就是:...

2019-03-13 15:59:43 962

原创 python获取pdf文件内容

1.python 获取pdf网页,首先需要知道链接,分清楚超链接和内容链接2.安装PDFminer3k(python3.x)深入学习python解析并读取PDF文件内容的方法http://www.cnblogs.com/wj-1314/p/9429816.html,这个链接有python2.x 和python3.x的说明,及详情。类似文章https://blog.csdn.net/rob...

2019-03-11 16:56:19 931

转载 mac安装Chrome驱动chromedriver

mac安装Chrome驱动chromedrivermac电脑的Chrome浏览器安装驱动,运行selenium,网上方法层出不穷,今天推出一个简便快捷的方法:首先看一下自己的Chrome版本,在设置–>关于Chrome中我们可以看到版本信息,我的版本是:那么接下来我们需要下载对应版本的驱动,驱动下载下来是一个压缩包,我们将其解压,将解压好的文件放入/usr/local/bin目录中,...

2019-03-11 16:53:17 604

原创 pandas的DataFrame怎么把几列数据合并成为新的一列

objdata['download_address'] = objdata['head_dref'] + objdata['announcementTime'] + objdata['announcementId'].map(str) + objdata['tail_href']如果某一列是非str类型的数据,需要用到map(str)将那一列数据类型做转换:...

2019-03-11 16:53:11 5525 1

转载 pdf批量下载网页文件,多种情景

小文件下载下载小文件的话考虑的因素比较少,给了链接直接下载就好了:import requestsimage_url = "https://www.python.org/static/community_logos/python-logo-master-v3-TM.png"r = requests.get(image_url) # create HTTP response object...

2019-03-11 16:53:04 1570

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除