- 博客(112)
- 收藏
- 关注
原创 OneHotEncoder一个不太合理的地方
假如某个特征有3种取值,正常经过OneHotEncoder编码后还是3种取值,即0,1,2;但一旦遇到上述问题设置。OneHotEncoder,在Xtrain上fit,在Xtest上transform。解决这个问题的其中一个办法是,在OneHotEncoder实例化的时候设置参数。在转换过程中,如遇到未知类别值时,编码器会将对应的编码位置全部设置为 0。时的默认值,还得通过继承OneHotEncoder类并覆盖相关方法来实现。后,编码就变成了0,1,这就会丢失部分信息。,即表示忽略未知类别值。
2024-09-08 00:35:05 258 1
原创 【疑惑-已解决】list = list.append(‘xxx‘)没有输出内容(None)
【代码】【疑惑-未解决】list = list.append('xxx')没有输出内容(None)
2023-01-24 18:35:17 681
原创 【无标题】
方法2:调用交叉验证的类cross_val_score并使用里面的scoring参数来设置使用均方误差。方法1:使用sklearn专用的模型评估模块metrics里的类mean_squared_error。方法1:直接从metrics中导入r2_score,输入预测值和真实值后打分。方法2:从线性回归LinearRegression的接口score来进行调用。方法3:在交叉验证中,输入"r2"来调用。
2022-10-15 20:56:48 417
原创 【笔记】关于Python星期转换 weekday() dt.strftime(“%w“)
关于Python星期转换 weekday() dt.strftime("%w")
2022-08-20 11:33:47 846
原创 DataWhale组队学习-电信客户流失预测挑战赛
赛题目的:预测电信用户的流失情况评估指标:AUC指标task1 baseline 提交结果:lgb线下0.8437 线上:0.8391下一步:针对每个特征做分析,处理异常值等
2022-06-15 23:47:59 217
原创 pandas resample()
参数:几个常用的参数rule:采样频率参考博客https://matches999.blog.csdn.net/article/details/118887701axis:{0 or ‘index’, 1 or ‘columns’},default 0,即沿行必须是 DatetimeIndex、TimedeltaIndex 或 PeriodIndexclosed:{‘right’, ‘left’},默认区间的哪一侧是闭合的,默认为left除了“M”、“A”、“Q”、“BM”、“BA”、“BQ”
2022-06-12 13:59:49 199
原创 关于给dataframe单列中部分行赋值的坑
报错信息:只是将value赋值给了原数据集df的一个副本,并没有改变df的值SettingWithCopyWarning:A value is trying to be set on a copy of a slice from a DataFrame.
2022-06-11 23:54:26 410
原创 使用jupyter notebook遇到的报错(不定期更新)
cannot import name ‘_to_object_array’ from ‘sklearn.utils’解决办法:重启anaconda解决参考的文章链接:click
2021-07-04 22:05:24 386
原创 DataGrip导入csv报错[42000][1064] You have an error in your SQL syntax; check the manual that corresponds
问题现象DataGrip导入csv文件,勾选了First row is header后,提示如下错误信息:原因原因是,csv文件中有空列,勾选First row is header,而空列不能做列名,因此才会报错解决办法在Excel中打开,删除空列,再导入...
2021-04-11 01:03:13 1673
原创 pandas缺失值处理
目录1. 删除 dopna()官方文档默认参数参数解释使用示例2. 填充 fillna()官方文档默认参数参数解释使用示例data = pd.DataFrame([[np.nan, 2, 3, 'a'], [4, np.nan, 6, 'b'], [7, 8, np.nan, 'c'], [1, 2, 3, 'd']], columns=list('abcd'))1. 删除 dopna()官方文档https://pandas.pydata.org/
2021-04-10 15:22:24 783
原创 使用Tableau遇到的问题合集(不定期更新)
1. 图中部分标签没显示出来1.1 问题详情图中红框中的几个国家没有数据标签1.2 解决办法https://kb.tableau.com/articles/issue/labels-missing-from-view?lang=zh-cn标签 - 勾上 允许标签覆盖其他标记
2021-04-04 18:42:04 1990 4
原创 python 实现字符串翻转
方法1:切片cstr = 'spam'cstr[::-1] # 'maps'方法2:reversed() + join()字符串本身是没有reversed()方法的直接reversed(cstr):''.join(reversed(cstr)) # 'maps'方法3:遍历字符串def func_reversed_str(a_string): new_str = '' i = len(a_string)-1 while i > -1:
2021-03-27 17:23:31 165
原创 kesci-这十套练习,教你如何使用Pandas做数据分析-练习5(学习笔记)
目录1. 导入必要的库2. 按照如下的元数据内容创建数据集3. 将上述的数据框分别命名为data1,data2和data34. 将data1和data2两个数据框按照行的维度进行合并,命名为all_data5. 将data1和data2按照列的维度进行合并,命名为all_data_col6. 按照subject_id的值对all_data和data3做合并7. 对data1和data2按照subject_id作连接8. 找到data1和data2合并之后的所有匹配结果题目数据来源:https://www.
2021-03-02 22:48:35 608
原创 kesci-这十套练习,教你如何使用Pandas做数据分析-练习4(学习笔记)
目录1. 导入库2. 加载数据3. 每一列(columns)的数据类型是什么样的4. 将Year的数据类型转换为datetime645. 将列Year设置为数据框的索引6. 删除名为Total的列7. 按照Year对数据框进行分组求和8. 何时是美国历史上最危险的年代1. 导入库import pandas as pd2. 加载数据crime = pd.read_csv('US_Crime_Rates_1960_2014.csv')3. 每一列(columns)的数据类型是什么样的crim
2021-02-28 16:19:33 187
原创 pandas 报错“TypeError: reduction operation ‘argmax‘ not allowed for this dtype”解决办法
pandas 报错“TypeError: reduction operation 'argmax' not allowed for this dtype”解决办法问题现象问题原因解决办法问题现象执行语句crime.idxmax()报错,报错“TypeError: reduction operation ‘argmax’ not allowed for this dtype”数据框crime:问题原因由打印数据框crime可知,列Year并非数据框crime的索引idxmax() 返回的是最
2021-02-28 14:14:05 1331
原创 kesci-这十套练习,教你如何使用Pandas做数据分析-练习3(学习笔记)
题目数据来源:https://www.kesci.com/mw/notebook/5c1b599d8859e0002b718378数据分组 -- 探索酒类消费数据1. 导入必要的库2. 加载数据3. 哪个大陆(continent)平均消耗的啤酒(beer)更多4. 打印出每个大陆(continent)的红酒消耗(wine_servings)的描述性统计值5. 打印出每个大陆每种酒类别的消耗平均值6. 打印出每个大陆每种酒类别的消耗中位数7. 打印出每个大陆对spirit饮品消耗的平均值,最大值和最小值1
2021-02-28 00:36:48 386
原创 kesci-这十套练习,教你如何使用Pandas做数据分析-练习2(学习笔记)
题目数据来源:https://www.kesci.com/mw/notebook/5c1b599d8859e0002b718378数据过滤与排序 -- 探索2012欧洲杯数据1. 导入必要的库2. 加载数据3. 只选取Goals这一列4. 有多少球队参与了2012欧洲杯5. 该数据集中一共有多少列(columns)6. 将数据集中的列Team,Yellow Cards和Red Cards单独存为一个名叫discipline的数据框7. 对数据框discipline按照先Red Cards再Yellow C
2021-02-27 23:59:35 430
原创 kesci-这十套练习,教你如何使用Pandas做数据分析-练习1(学习笔记)
题目数据来源:https://www.kesci.com/mw/notebook/5c1b599d8859e0002b718378了解你的数据 – 探索Chipotle快餐数据1. 导入需要的库import pandas as pd2. 导入数据chipo = pd.read_csv('chipotle.tsv', sep='\t')3. 查看前10行内容chipo.head(10)4. 数据集有多少列(columns)# print(chipo.shape) (4622, 5)
2021-02-27 16:59:13 470 2
原创 DataGrip代码自动补齐功能“失效”解决办法
目录问题现象原因解决办法问题现象输入字段名,datagrip不提示自动补全原因schema名和表名相同但是具体详细原因我暂时还说不上来,但是你这么写是工具是会给你提示的解决办法更改表名或schema名,不让他俩一样或者在写SQL语句的时候在表名前加上schema名(以我的为例,appstore.appstore)...
2021-02-12 10:21:13 2853
原创 数据分析SQL面试题目9套-第6题(笔记)
目录1. 题目2. 解题2.1 查询出每个用户最近一次登录的记录(每个用户只显示一条最近登录的记录),以及给出每个用户的登录总次数(同一天多次登录人为是一次)2.2 生成一张临时表,表名自定,四列数据,分别是:题目来源:https://www.jianshu.com/p/0f165dcf95251. 题目建表语句:create table userlog( id int , name varchar(10), EmailAddress varchar(50), l
2021-01-27 22:22:46 337
原创 数据分析SQL面试题目9套-第5题(笔记)
目录1. 题目(分组累加)2. 解题2.1 对A表的fdate列添加索引2.2 通过SQL语句,将A表数据进行计算后得到B表结果,并描述执行过程题目来源:https://www.jianshu.com/p/0f165dcf95251. 题目(分组累加)1)对A表的fdate列添加索引2)通过SQL语句,将A表数据进行计算后得到B表结果,并描述执行过程建表语句:create table A2 (FDATE datetime,value int);insert into a2 value
2021-01-27 21:40:49 146
原创 数据分析SQL面试题目9套-第3、4题(笔记)
题目来源:https://www.jianshu.com/p/0f165dcf95251. 题目(行转列)建表语句:-- 创建 course 表create table course (id varchar(20),teacher_id varchar(20),week_day varchar(20),has_course varchar(20));insert into course value(1,1,2,"Yes"),(2,1,3,"Yes"),(3,2,1,"Yes"),
2021-01-27 21:09:04 240 2
原创 数据分析SQL面试题目9套-第2题(笔记)
题目来源:https://www.jianshu.com/p/0f165dcf95251. 题目建表语句:create table userinfo(uid varchar(10),app_name varchar(20),duration int(10),times int(10),dayno datetime);load data infile 'C:/AAA_learning/data.csv'into table userinfofields terminated by
2021-01-27 21:05:00 125 1
原创 MySQL导入文件报错[HY000][1290] The MySQL server is running with the --secure-file-priv option so it cannot
问题现象:完整的报错信息:[HY000][1290] The MySQL server is running with the --secure-file-priv option so it cannot execute this statement原因:安装MySQL的时候限制了导入与导出的目录权限查看secure_file_priv该变量的设置:step1:打开MySQL终端MySQL 8.0 Command Line Client,输入如下命令: SHOW GLOBAL VARIABL
2021-01-23 14:53:02 1151
原创 数据分析SQL面试题目9套-第1题(笔记)
题目来源:https://www.jianshu.com/p/0f165dcf95251. 题目建表语句:create table datafrog_test1( userid varchar(20), changjing varchar(20), inttime varchar(20));insert into datafrog_test1 values(1,1001,1400),(2,1002,1401),(1,1002,1402),(1,1001,1402
2021-01-19 22:59:46 221
原创 SQL经典45题 - (31~45)
目录31.查询课程编号为 01 且课程成绩在 80 分以上的学生的学号和姓名32.求每门课程的学生人数33. 成绩不重复,查询选修「张三」老师所授课程的学生中,成绩最高的学生信息及其成绩34.成绩有重复的情况下,查询选修「张三」老师所授课程的学生中,成绩最高的学生35.查询不同课程成绩相同的学生的学生编号、课程编号、学生成绩36. 查询每门成绩最好的前两名37. 统计每门课程的学生选修人数(超过 5 人的课程才统计)38.检索至少选修两门课程的学生学号39.查询选修了全部课程的学生信息40.查询各学生的年龄
2021-01-17 15:14:04 228
原创 DataGrip执行SQL语句提示“java.net.ConnectException: Connection refused: connect”
问题现象:选中SQL语句执行,出现如下提示:右键数据库名-properties,测试数据库连接,报错完整报错信息如下:[08S01] Communications link failure The last packet sent successfully to the server was 0 milliseconds ago. The driver has not received any packets from the server.java.net.ConnectException
2021-01-17 14:30:13 5918 2
原创 SQL经典45题 - (21~30)
目录21. 查询男生、女生人数22. 查询名字中含有「风」字的学生信息23. 查询同名同性学生名单,并统计同名人数24. 查询 1990 年出生的学生名单25. 查询每门课程的平均成绩,结果按平均成绩降序排列,平均成绩相同时,按课程编号升序排列26. 查询平均成绩大于等于 85 的所有学生的学号、姓名和平均成绩27. 查询课程名称为「数学」,且分数低于 60 的学生姓名和分数28. 查询所有学生的课程及分数情况(存在学生没成绩,没选课的情况)29. 查询任何一门课程成绩在 70 分以上的姓名、课程名称和分数
2021-01-15 18:05:54 115
原创 SQL经典45题 - (11~20)
表字段如图所示:10. 查询没学过"张三"老师讲授的任一门课程的学生姓名# 中间表select distinct student.Snamefrom student inner join sc s on student.SId = s.SIdinner join course c on s.CId = c.CIdinner join teacher t on c.TId = t.Tidwhere t.Tname = '张三';select distinct student.Snamef
2021-01-15 17:56:06 129
原创 SQL经典45题 - (1~10)
目录1.查询" 01 "课程比" 02 "课程成绩高的学生的信息及课程分数1.1 查询存在" 01 "课程但可能不存在" 02 "课程的情况(不存在时显示为 null )1.2 查询同时存在01和02课程的情况1.3 查询选择了02课程但没有01课程的情况2.查询平均成绩大于等于 60 分的同学的学生编号和学生姓名和平均成绩3. 查询在 SC 表存在成绩的学生信息4.查询所有同学的学生编号、学生姓名、选课总数、所有课程的成绩总和5.查询「李」姓老师的数量6.查询学过「张三」老师授课的同学的信息7.查询没有学
2021-01-09 22:05:57 125
原创 牛客网刷题之SQL-24.获取所有非manager员工当前的薪水情况
获取所有非manager员工当前的薪水情况目录获取所有非manager员工当前的薪水情况1. 题目2. 解题3. 思路1. 题目2. 解题select dept_no, e.emp_no, salaryfrom employees e, salaries s, dept_emp dewhere e.emp_no=s.emp_no and e.emp_no=de.emp_no and s.to_date='9999-01-01'and e.emp_no not in
2021-01-03 21:13:27 129
原创 牛客网刷题之SQL-22.统计各个部门的工资记录数
统计各个部门的工资记录数目录统计各个部门的工资记录数1. 题目2. 解题1. 题目2. 解题select dept.dept_no, dept_name, count(sa.salary) as sumfrom departments dept, dept_emp, salaries sawhere dept.dept_no=dept_emp.dept_no and dept_emp.emp_no=sa.emp_nogroup by dept.dept_nameor
2021-01-03 18:27:11 381
原创 牛客网刷题之SQL-20.查找员工编号emp_now为10001其自入职以来的薪水salary涨幅值growth
查找员工编号emp_now为10001其自入职以来的薪水salary涨幅值growth1. 题目2. 解题select ( (select s.salary from salaries s where s.emp_no=10001 order by s.to_date desc limit 1) - (select s.salary from salaries s where s.emp_no=10001 order by s.to_date asc limit 1)
2021-01-03 17:37:51 139
原创 牛客网刷题之SQL-19.查找所有员工的last_name和first_name以及对应的dept_name
查找所有员工的last_name和first_name以及对应的dept_name目录查找所有员工的last_name和first_name以及对应的dept_name1. 题目2. 解题3. 思路1. 题目2. 解题select t.last_name, t.first_name, dept.dept_namefrom (select dept_no, last_name, first_namefrom employees emp left join dept_e
2021-01-02 23:42:01 194
原创 牛客网刷题之SQL-16.统计出当前各个title类型对应的员工当前薪水对应的平均工资
统计出当前各个title类型对应的员工当前薪水对应的平均工资目录统计出当前各个title类型对应的员工当前薪水对应的平均工资1. 题目2. 解题1. 题目2. 解题select t.title, avg(s.salary)from salaries s inner join titles t on s.emp_no = t.emp_nowhere t.to_date='9999-01-01' and t.to_date=s.to_dategroup by t.titl
2021-01-02 22:48:10 148
原创 牛客网刷题之SQL-18.查找当前薪水排名第二多的员工编号emp_no
查找当前薪水排名第二多的员工编号emp_no1. 题目2. 解题SELECT e.emp_no, MAX(s.salary) AS salary, e.last_name, e.first_nameFROM employees AS e INNER JOIN salaries AS sON e.emp_no = s.emp_noWHERE s.to_date = '9999-01-01'AND s.salary NOT IN (SELECT MAX(salary) FROM ...
2021-01-02 11:33:06 115
原创 pandas使用to_csv和to_excel两个方法保存文件数据不一致的疑问(已解决)
数据来源:https://www.kesci.com/mw/project/5ef7049f63975d002c923a1c1. 在jupyter里加载出来的数据:2. 使用to_excel保存到本地的数据:3. 使用to_csv保存到本地的数据:可以发现,使用to_csv和在jupyter中加载的数据是一致的,但是使用to_excel这个方法就不一样了。占个坑,后续知道答案了再来补充。...
2020-11-01 09:49:15 2171
原创 牛客网刷题之SQL-17.统计出当前各个title类型对应的员工当前薪水对应的平均工资
统计出当前各个title类型对应的员工当前薪水对应的平均工资题目链接1. 题目2. 解题-- 写法一select emp_no, salaryfrom salaries swhere s.to_date='9999-01-01'group by s.salaryorder by s.salary desclimit 1,1;-- 写法二select emp_no, salaryfrom sala
2020-10-05 23:22:52 180
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人