嬴溱-CSDN博客

原创数据分析--辛普森悖论

辛普森悖论探究两种变量（比如新生录取率与性别）是否具有相关性的时候，会分别对之进行分组研究。然而，在分组比较中都占优势的一方，在总评中有时反而是失势的一方。原因解释：(1) 两个分组的录取率相差很大，就是说法学院录取率9.2%很低，而商学院53.3%却很高，另一方面，两种性别的申请者分布比重却相反，女生偏爱申请商学院，故商学院女生申请比率占83.3%，相反男生偏爱申请法学院，因此法学院女生申请比率只占16.7%。结果在数量上来说，录取率低的法学院，因为女生申请为数少，所以不录取的女生相对很少。而

2020-08-27 10:49:32 848

原创 Python刷题训练---第一天

递归请编写一个函数（允许增加子函数），计算n x m的棋盘格子（n为横向的格子数，m为竖向的格子数）沿着各自边缘线从左上角走到右下角，总共有多少种走法，要求不能走回头路，即：只能往右和往下走，不能往左和往上走。def f(m,n): if m == 0 or n == 0: return 1 ## 当m,n其中一个为0，则只有一条路径 return f(m,n-1) + f(m-1,n) while True: try: m.

2020-08-25 18:11:46 1940

原创 SQL10天训练---（一）分组排名

分组排名“成绩表”记录了学生的名字，课程，学期以及对应的成绩。现在需要查找每学期每门课程的前3高成绩对应的学期，课程，姓名和分数。题目属于分组排名类型，专用窗口函数包括rank, dense_rank, row_number，函数存在区别1. 考虑3种情况如果出现两人并列第一的情况，则同为第1名；且第3人名次为2；则使用dense_rank(); 结果是1，1，2，3如果出现两人并列第一，则同为第1名，但第3人名次为3，则使用ranK();结果是1，1，3 ，4如果出现两人并列

2020-08-22 01:37:03 408

转载 python 字典方法

Python 字典(Dictionary) get()方法描述Python 字典(Dictionary) get() 函数返回指定键的值，如果值不在字典中返回默认值。语法get()方法语法：dict.get(key, default=None)参数 key -- 字典中要查找的键。 default -- 如果指定键的值不存在时，返回该默认值。返回值返回指定键的值，如果值不在字典中返回默认值None。以下实例展示了 get()函数的使用方法：#!/usr/bin/pythond

2020-08-15 15:49:56 177

原创关联规则2：相关知识

关联规则的常用术语包括：项目(Item)：I={I1,I2,…Im}是m个不同项目的集合,集合中的元素称为项目（Item）。项目可以看做是每次交易/订单的基本组成元素。例如在超市中，该项目可以是一个笔记本，一杯牛奶。事务(transaction)：可以看做是消费者发生一笔交易中所有项目的集合。注意，此处项目是去重的。对于客户购物篮来说，发生的所有项目的集合：如｛牛奶，面包，啤酒｝，{保湿水，洗面奶，发箍}。项集(Item set)：在一次事务中，包含若干个项目的集合，一般会大于0个。

2020-08-03 15:57:42 276

原创关联规则1：关联规则的应用场景

关联规则，作为十大机器学习算法之一，应用非常广泛。最经典的例子当然是“啤酒”和“尿布” 的故事。这个故事的背景是什么呢？

2020-08-03 11:33:30 6222

原创离群值的识别方式

箱式图方法箱式图使用了变量的5个指标构成：最小值，下四分位数（P25），中位数(P50)，上四分位数(P75)和最大值。P25，P50和P75构成“箱体”部分，“箱体”中间的横线表示P50,即中位数；如何观察异常值？四分位距IQR=Q3-Q1上限是非异常范围内的最大值, 上限=Q3+1.5IQR下限是非异常范围内的最小值，下限=Q1-1.5IQR拉依达准则适用于服从正态分布的数据。需要计算出数据的均值（μ）和标准差（σ），大于μ+3σ或小于μ-3σ的数值为离群值马氏距离法马氏距离法

2020-07-27 16:42:04 9486

原创 EXCEL 常用函数

1. countif函数对指定区域中符合指定条件的单元格计数的一个函数;该函数的语法规则如下：countif（range，criteria）参数：range 要计算其中非空单元格数目的区域参数：criteria 以数字、表达式或文本形式定义的条件例如：等于50=COUNTIF(数据区,"=50")参考链接: countif函数说明及使用.然而，countif仅能使用一个条件，countifs可以弥补这个遗憾**2. countifs函数用来统计多个区域中满足给定条件的单元格的个数;

2020-07-26 23:38:45 301

转载 python绘图笔记

matplotlib 绘制散点图和连续曲线，水平垂直辅助线，同窗多图（坐标轴长度范围、标题设置等）

2019-06-19 15:44:54 224

转载公众号阅读内容分享

案例详解：欺诈检测中的代价敏感算法在传统的二分类分类问题中，我们的目的是尽量减少误分类，并用准确率、F度量或AUC-ROC曲线等统计量来衡量模型的性能。然而在某些问题中，为了降低总代价最好容许更多的误分类。如果误分类产生的代价因样本而异，我们应该采取基于实例的代价敏感学习方法。传统分类模型假定所有的误分类具有相同的代价，而代价敏感模型认为不同分类模型间和不同样本间的代价都不同。在本文中，我们...

2019-05-24 17:16:25 331

转载隐马尔可夫模型解释（转移矩阵，发射矩阵，初始概率）

1.隐马尔可夫模型详解2. 简析EM算法（最大期望算法）3. 悉尼科技大学徐亦达课程。4. Python实现HMM（隐马尔可夫模型）以下基础知识来源于该链接。5. HMM的一些基础知识：Xi是观测值，以上是一个观测值序列；如果观测值x的状态非常多（特别极端的情况是连续数据），转换函数会变成一个非常大的矩阵，如果x的状态有K个，那么转换函数就会是一个K*(K-1)个参数，而且对于连续变量...

2019-04-26 11:13:57 10322

转载正则表达式汇总表

1.正则表达式汇总表转载网上别人的图，仅作为学习。

2019-04-26 10:47:56 129

转载 python random随机数用法

np.random.seed(int)给随机数对象一个种子值，用于产生随机序列。对于同一个种子值的输入，之后产生的随机数序列也一样。通常是把时间秒数等变化值作为种子值，达到每次运行产生的随机系列都不一样seed() 省略参数，意味着使用当前系统时间生成随机数np.random.seed(10)print random.random() #0.57140259469np.ran...

2019-03-27 19:08:42 357

转载 pandas 获取不符合条件/不包含某个字符串的dataframe

pandas 获取不符合条件/不包含某个字符串的dataframe问题来源：做项目时，想拿到不符合条件的所有数据，比如：通话类型有好多种（主叫、被叫、呼转……），现在想分析所有非主叫数据，那么问题就来了。方法一：df[~df.col.str.contains(word)]df = pd.DataFrame({"A": ["Hello", "this", "World", "apple"]})...

2019-03-23 09:09:21 16702

原创 np.random.random()函数参数用法以及numpy.random系列函数大全

1.np.random.random()函数参数np.random.random((1000, 20))上面这个就代表一千个浮点数，从0-20中随机。2.numpy.random.rand()函数用法numpy.random.rand(d0, d1, ..., dn)生成一个[0,1)之间的随机浮点数或N维浮点数组。3.numpy.random.randn()函数用法：numpy...

2019-03-14 18:48:41 3567 2

原创 sklearn中的分类方法

### Multinomial Naive Bayes Classifier from sklearn.naive_bayes import MultinomialNBclf = MultinomialNB(alpha=0.01)clf.fit(train_x, train_y)### KNN Classifier from sklearn.neighbors impo...

2019-03-14 18:42:55 682

原创 pdf 转化为 txt文件

### 打开pdf文件 import sysimport importlibimportlib.reload(sys)from pdfminer.pdfparser import PDFParser,PDFDocument from pdfminer.pdfinterp import PDFResourceManager,PDFPageInterpre...

2019-03-14 15:32:33 206

转载 Python——DataFrame中，中文列的筛选

中文筛选的方法：筛选出A列重庆的行：data.A==‘重庆’ / data[‘A’]==‘重庆’筛选出A列包含重庆的行业（答案中有：重庆/北京和重庆）：data.A.str筛选出A列分别是重庆和成都的行业：data.A.isin([‘重庆’,’成都’])筛选出在dataframe2的A列中包含dataframe1的B列的所有选项：data2.A.isin(data1.index....

2019-03-14 15:30:13 2988

转载 python 数据重塑stack，unstack，pivot

pandas中，这三种方法都是用来对表格进行重排的，其中stack()是unstack()的逆操作。某种意义上，unstack()方法和pivot()方法是很像的，主要的不同在于，unstack()方法是针对索引或者标签的，即将列索引转成最内层的行索引；而pivot()方法则是针对列的值，即指定某列的值作为行索引，指定某列的值作为列索引，然后再指定哪些列作为索引对应的值。因此，总结起来一句话就是：...

2019-03-13 15:59:43 962

原创 python获取pdf文件内容

1.python 获取pdf网页，首先需要知道链接，分清楚超链接和内容链接2.安装PDFminer3k（python3.x)深入学习python解析并读取PDF文件内容的方法http://www.cnblogs.com/wj-1314/p/9429816.html，这个链接有python2.x 和python3.x的说明，及详情。类似文章https://blog.csdn.net/rob...

2019-03-11 16:56:19 931

转载 mac安装Chrome驱动chromedriver

mac安装Chrome驱动chromedrivermac电脑的Chrome浏览器安装驱动，运行selenium，网上方法层出不穷，今天推出一个简便快捷的方法：首先看一下自己的Chrome版本，在设置–&gt;关于Chrome中我们可以看到版本信息，我的版本是：那么接下来我们需要下载对应版本的驱动，驱动下载下来是一个压缩包，我们将其解压，将解压好的文件放入/usr/local/bin目录中，...

2019-03-11 16:53:17 604

原创 pandas的DataFrame怎么把几列数据合并成为新的一列

objdata['download_address'] = objdata['head_dref'] + objdata['announcementTime'] + objdata['announcementId'].map(str) + objdata['tail_href']如果某一列是非str类型的数据，需要用到map(str)将那一列数据类型做转换：...

2019-03-11 16:53:11 5525 1

转载 pdf批量下载网页文件，多种情景

小文件下载下载小文件的话考虑的因素比较少，给了链接直接下载就好了：import requestsimage_url = "https://www.python.org/static/community_logos/python-logo-master-v3-TM.png"r = requests.get(image_url) # create HTTP response object...

2019-03-11 16:53:04 1570

weixin_43368684的博客