自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

小白的编码屋

小白的进阶之路

  • 博客(112)
  • 资源 (1)
  • 收藏
  • 关注

原创 使用OneHotEncoder进行类别变量转换的时候出现 Could not convert string to float: ‘b‘ 的解决办法

今天在进行数据预处理的类别变量转换时,报错:掌柜就觉得奇怪了,明明看官方文档说的是可以对类别变量进行转换的:而且示例也是可以的:再往下一看发现这里有一排斜体的小字:在0.20版本中修改过...

2020-07-22 19:50:17 2402

原创 Leetcode题解之database(八)595. Big Countries -- 浅谈选择Union还是OR

掌柜又随手刷了一道力扣数据库题,这次是595题????:找大国。相信很多朋友都见过这个题,这题确实很简单,只要你SQL基础过关。所以掌柜就简单提一下,此题主要考察知识点就是SQL中多条件的过滤。但是掌柜一如既往在自己解答后看其他人的题解时,发现了一个有趣的东西 – 就是大多数题解都写到????:这里使用Union连接两个查询语句的效率会优于使用OR方法???真的是这样的吗???????掌柜持怀疑态度❗--------------------------------------------------

2020-07-14 20:57:47 230

翻译 如何用sklearn工具包里面的feature_selection模块来进行特征选择/降维(二)

(接上篇)1.13.3. 递归特征消除给定一个对特征进行权重分配的外部评估器(比如线性模型里面的系数),递归特征消除(RFE)法会通过递归考虑越来越少的特征集来进行特征选择。首先,在初始化的特征集上面已经训练好的评估器要么通过coef_属性,要么通过feature_importances_属性获取每个特征的重要性。接着,最不重要的特征将从当前特征集中删除。然后会在修剪集(即刚才删除最不重要特征后的数据集)上递归地重复这个过程直到最终达到所需要的特征数量。RFECV则以交叉验证循环的方式执行RFE来

2020-07-13 20:00:20 390

原创 双峰偏态数据如何转变为正态分布数据

最近掌柜遇到这样一组数据,它呈现出双峰偏态形状:大家都知道,在构建模型的时候都尽量要让偏态数据转换为正态分布数据。所以问题又来了?为什么偏态数据要尽量转换为正态分布数据呢?因为很多模型假设数据服从正态分布后,它的样本均值和方差就相互独立,这样就能更好的进行统计推断和假设验证。比如熟悉的线性回归就是假设误差服从正态分布。好了,现在回到这里,刚刚上图显示的是双峰偏态数据,掌柜查阅了一下,发现如果要转换成正态分布形式的话,可以使用Sklearn里面的QuantileTransformer方法。具体使用方

2020-07-10 21:11:15 14199 8

原创 回炉整理《数据分析实战45讲》之基础篇 -- 13.数据变换(二)

(接昨天的)下面我们来看分别用Min-Max归一化、Z-Score标准化对Sklearn数据集里面的鸢尾花数据集进行处理的差别:这是用Min-Max归一化处理后的鸢尾花数据可视化图:

2020-07-09 20:47:27 487

原创 Jupyter Notebook安装各类包时常见的十种坑坑和解决办法汇总(上)

最近又手贱的升级某个包导致了在使用Jupyter notebook中遇到了各种坑坑????。。。掌柜可能自带填坑属性????,所以这里对常见的十种Jupyter坑做个总结!PS:造成同一个报错的原因有很多种,掌柜这里列出的解决办法也不一定对所有场景有效,谢谢理解!PPS: 掌柜这里是Windows10的64位操作系统,且是在Anaconda Prompt中安装各种包的。Exception: Jupyter command ‘Jupyter notebook’ not found.这是因为掌柜在卸

2020-07-08 19:03:05 4877 2

原创 回炉整理《数据分析实战45讲》之基础篇 -- 13.数据变换(一)

(PS: 先跳过十二章,因为那章讲数据集成,这个后面再一起讲,因为要讲的比较多。此外,下文若有错误,请指正,谢谢!????)这次是第十三章:13 | 数据变换:考试成绩要求正态分布合理么?该章主要讲数据变换的几种方法中的数据规范化是什么,以及如何用sklearn里面的processing包来处理数据。还有其他变换的方法比如数据平滑、数据聚集、数据概化和属性构造等方式,它们都可以将(特征)数据转换成适用于数据挖掘的形式。所以数据变换也可以理解为对要挖掘的特征进行变换(用英文更专业点,叫Featur

2020-06-30 20:46:49 570

翻译 如何用sklearn工具包里面的feature_selection模块来进行特征选择/降维(一)

最近在进行一个练习赛的时候遇到特征处理的问题,于是就在sklearn官网查了一下,发现有专门的一节来讲关于特征选择的,因此打算翻译一下来具体学习。sklearn.feature_selectionPS:翻译如果觉得有问题,请大佬帮忙纠正!谢谢。-----------------------------------------我是一条无感情的分界线--------------------------------------------1.13. Feature selectionsklearn.

2020-06-27 16:55:30 1118

原创 Attribute Error :XGBRegressor object has no attribute XGBReressor的解决办法

刚刚掌柜在进行调参的时候遇到这样的报错:这就奇怪了,明明刚刚Xgboost还能运行,怎么调参就不行了???于是掌柜去搜解决办法,十个有九个都是说因为存在有 xgboost.py命名的文件才导致的。但是掌柜明明才开始用这个,也没建过这样名字的Python文件。但是秉着严谨的精神还是去搜了电脑里面的所有文件,结果并没有找到什么。。。接着又重装了xgboost这个包,但是依然报错如上!正当掌柜要陷入僵局的时候,突然在官网的论坛看到一个类似的疑问,下面有这么一句话:突然想到一个问题,难道是我一开始在第一个程

2020-06-18 21:20:37 7897 4

原创 Leetcode题解之database(七)1179. Reformat Department Table

今天又随手刷了一道力扣题,还是数据库的。这次是 1179题:重写部门表格。又是一道看似简单的题,但不注意还是容易出错????。此题主要考察的知识点????:CASE WHEN/IF 函数的用法以及SQL分组聚合的方法。解题思路????:仔细看题目这里的要求要求表格以 部门id和每个月的收入 这样的形式来显示,如上。那么问题来了,第一个:如何统计有哪些部门id?第二个:如何统计每个月该部门id的收入?首先第一个问题很好解决,想要统计表格有哪些部门id,很自然就会想到用GROUP BY方法;

2020-06-18 18:52:05 2564 4

原创 调用sklearn模型遇到Unknown label type: continuous 的解决办法

调用sklearn模型的时候 报错“Unknown label type: ‘continuous’ “的解决办法刚刚掌柜在进行模型预测的时候遇到这样的报错:为什么会这样呢?掌柜搜过类似问题的解法,发现在StackOverflow上面有个解释的很清楚:原来是因为目标列是真实地数字,不能作为分类问题的标签进行运算。那么问题又来了:为什么不能作为分类标签呢? 再看下面那句话,其实也是sklearn官方文档中地原话:哦,原来在用sklearn做分类任务的时候,y 应该是整数或者字符串型的向量。至此,这

2020-06-14 16:35:08 53186 15

原创 从一道简单的Leetcode 197题 “上升的温度” 看INNER JOIN、CROSS JOIN 和 , (comma 逗号) 连接两表/多表的区别

今天又随手刷了一道Leetcode的197题,此题难点主要在于比较两个日期值 DATEDIFF() 函数的使用,如果你很熟悉这个函数,那么这题对你来说就很简单了!不过掌柜在解完此题后习惯性地看看别人的解法,因为总有厉害的朋友在下面给出惊喜????。于是又发现了一个细小的点:即使用INNER JOIN(或JOIN)、CROSS JOIN和使用逗号(,)来连接两表/多表到底有什么区别?又开始翻阅查询,在MySQL 8.0的官网看到这么一段话:翻译一下这里(如果有错误,请谅解并提出来):INNER JO

2020-06-08 19:55:09 2269

原创 初次使用Lua编写脚本的时候需要注意的几个小地方

这几天在学习Redis的时间顺便也接触了Lua这个脚本语言,感觉Lua语法还算简单,但是初次接触有几个需要注意的地方,这里打算记录一下。如果想在Windows10上面使用Lua客户端自己编写脚本,可以去这里下相应的软件包:LuaDist,下完后记得去你的环境变量里面添加相应的路径Path(比如掌柜这里是E盘就按下面这个写法):保存后在命令行输入lua,出现版本信息就代表安装好了lua的配置环境。Lua语言里面所有的变量都是默认全局变量,默认值都是nil;如果赋值,全局变量的值则改变,但是用loc

2020-06-03 19:05:27 1033

原创 初次使用Python连接Redis报错: 由于目标计算机积极拒绝,无法连接。的解决办法

初次使用Python连接Redis的时候突然报错如标题:额。。。回头又重看了一遍刚刚自己写的代码,没有错啊?怎么就无法连接了???后来翻看一番谷歌,才发现一个尴尬的问题。。。上面????报错的原因是因为Redis服务没有启动。。。 换句话说就是还没有安装Redis服务。。。自然就没法连接了????。好了,问题找到了,解决的办法也有了。来到GitHub下载能在Windows系统下运行的Redis服务:Redis-x64-3.2.100.zip(PS:不是Windows系统的请到官方自行下载符合你

2020-05-27 20:22:03 5823

原创 记录在学习SQL注入的过程中遇到的几个坑

今天学习了一下SQL注入,然后又遇到了一些坑坑,嗯,日常遇到坑的掌柜已经习惯了填坑的日常!!!????

2020-05-24 18:16:08 937

转载 520,送你四种Python画玫瑰的方法

今天又是520????掌柜在网上收集了四种画玫瑰花的方法,希望有你喜欢的一种!第一种:顶上慢画玫瑰花????#第一种:画玫瑰的方法from turtle import *import time#初始化玫瑰#画布大小setup(600,800,0,0) speed(0)penup() # 提起画笔seth(90) #朝向90度fd(340) #向前移动指定的距离seth(0)pendown() #放下画笔#开始画speed(5) #画笔移动速度为5秒beg

2020-05-20 21:27:40 11031 9

原创 Leetcode题解之database(五)176. Second Highest Salary

今天又随手刷了一道leetcode的数据库题,这次是????:176. Second Highest Salary 求第二高工资。乍看这题是不是觉得似曾相识?没错,之前掌柜写过另外两个题,分别是求部门最高工资的员工 和 求部门工资排前三的员工。其实那两题还稍微难点,因为涉及多表联合查询的;不过这道题看似简单些,里面却有两个坑需要注意避开!!!掌柜一开始就没注意到,导致提交就报错????。。。上面这个错误❌的解法就是疏忽了第二个坑导致的,下面掌柜马上填坑????。第一个坑就是有可能会出现工资有重复的

2020-05-18 19:39:22 324

原创 由一道简单的Leetcode题 “620. 有趣的电影 ”发现了一个有趣的东西 -- “位运算中的按位与运算”

今天掌柜随手翻了一道Leetcode的题来练手,对,就是上面的620这道题????找出有趣的电影 。这道题确实很简单,筛选数据的条件就三个,一个是判断description 不是boring;另一个就是id必须是奇数;最后还要按评分降幂排列。具体的题目和解法掌柜就不贴出来了,大家可以去leetcode官网查看。掌柜在自己提交了解法后会习惯性地去看别人的解法,想看看有没有更优解。于是就意外的发现一个高票的答案里面使用了标题里面的????位运算。于是就随手一搜,发现这是个很有趣的东西,打算这里多聊几句,

2020-05-15 20:14:53 2558 1

原创 LOAD DATA INFILE 导入数据到MySQL,出现日期类型异常显示为0000-00-00 00:00:00的解决办法

写完之前百万数据导入的总结后,最近还真经常遇到需要把百万数据导入MySQL,就用最快的Load Data Infile这个方法导入,但是今天遇到了要导入的数据里面含有日期类型,如果还是按之前写法导入就出现了如下异常的日期格式????:这是怎么回事呢?掌柜再次翻阅全网,发现造成这样的原因有很多,其中主要原因是因为插入的数据不合规。比如插入数据长度超出该字段的设置值、无效字符、插入数据的格式不对等。后来掌柜经过一番排查后发现,我这里出错的原因是因为插入的格式不符合MySQL默认的日期格式导致的。那么解决的

2020-05-09 19:50:14 5217 2

原创 上百万条数据导入MySQL的方法汇总(三)

今天继续解决最后的两方法,不过掌柜觉得最后一个方法其实已经在上一篇的存储过程里面实现了????事务+有序的多次插入。那么这篇主要就谈合并单条SQL语句为多条再导入这个方法。PS:掌柜翻遍全网发现好多文章都只谈到批量合并数据可以提升数据插入的性能,但是很多都没有提到如何进行批量数据的合并。。。都只说把单条SQL语句插入:改成合并多条的值再一次插入:但是这是百万数据啊!总不能手动进行批量合并吧!所...

2020-05-07 20:07:04 2009 3

原创 Python读取文件夹下多个文件,却不是按数字标号从小到大的顺序读取的解决办法

今天遇到了用Python来进行批量读取同一个文件夹下的多个文件却不是按照从小到大的顺序读取的,出现了下面这样的情况:发现没?读取的文件顺序是乱的,不是我们想要的从小到大这样的顺序,即原文件这样:后来掌柜查阅一番后再思考了一下,发现它之所以会出现“乱序”是因为使用默认ASCII的字符串排序方式。就是如果前面都一样,那么就看下一位;所以这里除开’user_'后,它就按照先看后面数字的第一位来排...

2020-05-07 19:28:42 4273 9

原创 上百万条数据导入MySQL的方法汇总(二)

接昨天,继续用其他方法导入上百万条数据到MySQL。下面是第三种方法????:用存储过程导入。

2020-05-01 17:26:22 2689 2

原创 MySQL出现ERROR 1205(HY000):Lock wait timeout exceeded; try restarting transaction的解决办法

今天在删除表格的时候出现如下报错:于是通过查询当前线程发现有多个线程同时开启运行中。。。再查看当前运行的所有事务:SELECT * FROM information_schema.INNODB_TRX;可以发现有三个事务同时都在运行。。。所以可以找到掌柜这里报错的直接原因是:之前存储过程(里面开启了事务)运行半天没有反应就手动关闭了MySQL。。。没有让它进行commit。。。并...

2020-04-27 23:12:44 7357

原创 上百万条数据导入MySQL的方法汇总(一)

昨晚遇到一个把百万条数据导入MySQL的问题,翻遍整个网络,最后找到了如下几种方法,这里先做个汇总!直接导入 ------此方法极不推荐!费时费力还损电脑!用Load data infile和临时表导入;------ 推荐使用存储过程批量导入;------ 推荐更换引擎,让ENGINE=InnoDB为MyISAM,再导入;------ 有效但是不太推荐,会对数据库性能有影响!合并单条...

2020-04-23 20:37:23 9112 16

原创 回炉整理《数据分析实战45讲》之基础篇 -- 11.数据清洗(二)

上篇补了 “完全合一” 中的“完整性”这个部分掌柜觉得需要了解的知识点,接下来继续看全面性。还是回到服装店会员数据表那里,掌柜觉得这里的“全面性”指的是数据要规范:即大小写要统一、有单位的要统一单位、数据长度也要一致(小数点后面是几位都要统一)、数据名称保持一致等。那么再看这里的表格可以发现出现了单位不统一以及之前对均值填充的时候小数点位数变多的情况,只需要统一单位和小数点位数即可。这里把年龄...

2020-04-18 19:06:33 376

原创 回炉整理《数据分析实战45讲》之基础篇 -- 11.数据清洗(一)

之前学了陈旸老师的《数据分析实战45讲》(掌柜现在觉得该课程偏向于技术方向的数据挖掘),让掌柜对数据分析的工具(主要是Pandas、Numpy、Matplotlib以及Scikit-learn)使用和步骤有了一个大致的了解。但是学完后还是觉得里面漏了一些细节的东西,比如时间序列那里没有讲对差分次数d的查找;泰坦尼克号项目分析的时候只浅谈了交叉验证方法等。于是掌柜就开了这个项目(还没写,就居然有人...

2020-04-16 12:34:52 874

原创 数据分析面试、笔试题汇总+解析(四)

今天解决最后一道题????:把数据集随机划分为训练集和测试集,按8:2的比例。一般会想到用随机划分的方法,即使用sklearn库里面的model_selection模块的train_test_split方法。这里掌柜就直接拿官方的鸢尾花数据集示例来演示一下:这????就是此题的解法(当然,在此环境下该方法是没什么问题的,而且大多数情况下我们也是这么划分数据集的;),但是此方法存在一定的缺点,即在测试集...

2020-04-14 00:00:51 820

原创 数据分析面试、笔试题汇总+解析(三)

接着昨天的面试题,今天解决五六七八题:新建属性列,提取日期中的月份根据id和月份,做数据透视表;分别求出每个id在不同月份的消费笔数、消费总额合并信息表和数据透视表;按id合并数据脱敏,将文本信息匿名化首先来解决第五题????:新建属性列,提取日期中的月份接着要提取日期里面的月份,这里有两种方法,看????方法一,使用DatetimeIndex()方法:这样就成功提取了月份的数据出来;...

2020-04-09 20:33:19 4034

原创 数据分析面试、笔试题汇总+解析(二)

继续之前的面试题解析,下面是第二题:求1 +3!+5!+7!+9!+50!之和。这道题其实考察的是用递归解决阶乘问题,查阅过后发现有三种方法可解(不过掌柜觉得其实是两种)。下面????看第一种解法,常规思路:先找出单个阶乘的函数表达式后再求和:应该不难理解第一种解法,下面尝试第二种解法????:用列表推导式简化后求解递归是不是觉得第一和第二其实是一样的?????下面????看第三种:直接调用Scipy库里...

2020-04-08 19:40:01 1846 2

原创 数据分析面试、笔试题汇总+解析(一)

这几天遇到了好几个面试,现在总结一下面试题以及相应的解法。(虽然面试的时候掌柜发挥的不怎么好,没有拿到offer。但是换个角度想想,通过多面试去发现自己的不足,也对自己是另一种锻炼和成长吧????。)好了,言归正传,下面看面试题,因为这个公司偏向于用Python来处理数据和挖掘数据,所以面试的问题也都是跟Python数据分析相关的。如何查找字典中value最大值对应的key?方法一:可以用max...

2020-04-03 19:37:55 5371 2

原创 Leetcode题解之database(四)185. Department Top Three Salaries

今天要解的题目是????:185. Department Top Three Salaries(部门工资排前三的员工)这题考察的知识点????:两表连接JOIN的使用以及子查询此题思路一????:既然要查部门工资排前三,那么我们要知道有哪些部门?这里就要使用JOIN连接两表得到各个部门信息,然后再在各部门中降幂排列出工资排前三的员工信息,这里就要用到子查询建立一个新表来跟原始表进行对比。(这也是官方的解法思路)...

2020-03-31 19:08:06 310

原创 数据去重的各种方法汇总(三)

Pandas去重DataFrame接上篇,这篇就剩最后的用Pandas对Dataframe里面的数据去重,这里也有两种方法,可以直接看官方文档(但是掌柜觉得其实就是一种方法,因为第一种只是显示哪些重复。。。):使用duplicated方法,它会返回一个布尔向量,其长度为行数,表示行是否重复,但是并不会删除重复数据。来看实例:import pandas as pdimport num...

2020-03-27 19:03:08 2787

原创 数据去重的各种方法汇总(二)

接上文,上篇讲了Python列表和字典的去重方法,本篇主要总结Excel和MySQL的去重方法。Excel去重解法一,直接使用“删除重复值”按钮,下面看示例和图解步骤:先选中你要删除重复值的那一列数据,然后再按照上图????的步骤走。接着就是确认你要删除的重复值数据范围(一列还是多列):最后就是删除后的确认最后我们查看删完重复值的数据:是不是很简单????。当然这里还有其他方法...

2020-03-26 18:27:56 1113

原创 数据去重的各种方法汇总(一)

这几天多次遇到数据去重的问题,所以打算整理一下几种不同类型的数据去重的方法(因为掌柜现在主要是数据分析方向,所以这里主要汇总Python列表、数据库的MySQL以及Pandas的Dataframe)。首先我们来看Python列表去重看下面这个例子:在这里插入代码片...

2020-03-23 22:12:08 2373

原创 Leetcode题解之database(三)196. Delete Duplicate Emails

今天要解的题目是????:196. Delete Duplicate Emails(删除重复的邮件)乍看之下会觉得是个很简单的去重问题,但是请仔细注意题目的要求:题目要求的是删除重复的数据,并保留Id最小的邮箱数据!!!所以如果一开始想用DISTINCT函数是不对的,因为它只是在查询的时候去掉了重复的数据不显示,但是并没有删除该数据。。。此题考察知识点????:Delete函数和Where条件查询的使...

2020-03-22 00:04:04 1662

原创 Leetcode题解之database(二)184. Department Highest Salary

今天要解的是184题:部门最高工资的员工。题目链接在这里:???? 184. Department Highest Salary首先看这题要考察的知识点:????再看这题的思路: 要找的是部门最高员工,那么有两种思路????:...

2020-03-20 18:33:57 362

原创 Leetcode题解之database(一)183. Customers Who Never Order

从今天开始每天都记录解一道Leetcode数据库的题,把它所使用的方法、思路、考察知识点以及最优解写下来。废话不多说,今天要解的是183题:没有下单的客户名字。题目链接在这里:???? Customers Who Never Order首先看这题要考察的知识点:...

2020-03-18 18:12:07 318

原创 大众点评前650家咖啡店的数据分析(三)分析篇

(接上篇)上篇掌柜分析了人均(mean-price)、地区(area)以及点评数(review-num),下面接着分析推荐菜(recommend)、评分(shop-num)以及多个变量之间的关系。先看推荐菜(recommend),掌柜统计了一下出现频率最高的10个饮品:结论五:在这650家咖啡店的数据里面,成都人民最爱点的咖啡就是拿铁????,其次是焦糖玛奇朵和澳白(Flat White),第...

2020-03-12 16:06:02 1905 3

原创 大众点评前650家咖啡店的数据分析(二)分析篇

根据之前获取的数据我们进行了如下分析。首先看单变量的人均消费,通过describe方法可以看出来是成都的整体咖啡店人均消费是45(以成都的工资来看有点贵):于是掌柜又直接可视化所有人均消费,人均消费多数在100以下,极个别超过500,最贵的是700+???(是不是会觉得奇怪,怎么会有一杯700的咖啡?????)所以掌柜又对超出100的咖啡店数据进行了一个查看:可以看出来这些都基本是西餐厅...

2020-03-12 00:26:30 2667 2

原创 大众点评前650家咖啡店的数据分析(一)爬虫篇

趁着疫情期间不能出门,于是掌柜的就继续在家捯饬代码。之前看到有个写了关于成都火锅店的数据分析,掌柜的看完后觉得想弄个咖啡店(因为喜欢喝咖啡☕),说干就干。结果在开头就碰钉子,大众点评的反爬措施不得不说一句:“厉害????!” 之所以这么说是因为发现他们家的数据是不开F12看着都正常,一开就是全是下面这样:然后查看多个咖啡店的信息都是如此,后来搜索后知道这就所谓的字体反爬!!!大众点评采用的反爬措施就...

2020-03-11 19:14:01 2743 25

纯CSS3制作简单的3D动画魔方

利用纯CSS3制作简单的3D 动画魔方,不到一百行代码就可以实现!

2018-11-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除