自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

梦船水萍

载梦远行~

  • 博客(34)
  • 收藏
  • 关注

原创 pandas--str.contains()

针对Series进行操作得到布尔索引1、或Series.str.contains('str1|str2')# 符号'|'左右不要加空格2、且Series.str.contains('(?=.*str1)(?=.*str2)')# 或者Series.str.match('(?=.*str1)(?=.*str2)')

2022-05-04 21:47:16 1461

原创 mysql取出连续出现的数据

题目要求:选出连续出现’你’,‘好’,'吗’所在的idCREATE TABLE test(id INT,value VARCHAR(10));INSERT INTO test VALUES (1, '你'),(2, '好'),(3, '吗'),(4, '哦'),(5, '你'),(6, '好'),(7, '吗'),(8, '你'),(9, '你'),(10, '好'),(11, '吗')方法一思路: lead函数+多列查询匹配SELECT e.* FROM

2022-04-19 15:19:53 1080

原创 SQL-购进库存记录

题目有如下2张表F0128A发药信息表F0128B购进记录表某医院系统卖给患者阿莫西林X数量后去下购进记录的库存,购进记录可能是零散的。现在按iilszh排序,优先iilszh小的,依次下库存如何得到类似下面的结果集:测试语句CREATE TABLE F0128A (-- iilszh INT IDENTITY(1,1) -- SQL serveriilszh INT AUTO_INCREMENT -- MySQL,spmc VARCHAR(100) --药品名称,fy

2022-01-28 11:47:59 1101

原创 SQL--查找每个公司薪水的中位数

题目F0126表包含所有员工,其中有三列:员工ID,公司名和薪水。请编写SQL查询来查找每个公司的薪水中位数。中位数:若记录数为奇数,取一条,否则取两条,如记录数为7,按顺序直接取第4名即是中位数,记录数为6,按顺序则是第3,4名是中位数结果测试数据CREATE TABLE F0126(ID INT,Company VARCHAR(10),Salary INT)INSERT INTO F0126 VALUES(1,'A',8341),(2,'A',9410),(3,'A

2022-01-26 11:58:04 1282

原创 忽略Xgboost的Warning

[15:32:12] WARNING: C:/Users/Administrator/workspace/xgboost-win64_release_1.4.0/src/learner.cc:1095: Starting in XGBoost 1.3.0, the default evaluation metric used with the objective ‘binary:logistic’ was changed from ‘error’ to ‘logloss’. Explicitly set .

2022-01-21 17:50:00 2683

原创 04 | Python科学计算:用Numpy快速处理数据

为什么选择numpy的数组数据结构而不是python内置的列表结构来储存数组?1、列表的元素可以是任意对象,因此储存的是对象的指针,会浪费储存空间和计算时间2、列表的元素在系统内存中是分散储存的,而numpy数组是储存在均匀连续的内存块中,可以直接利用cpu的矢量化指令计算,矩阵计算可以采用多线程的方式,提升计算效率...

2021-11-02 17:41:51 121

原创 03 | Python基础语法:开始你的python之旅

通过实战项目,熟悉代码编写,自己动手实现很重要

2021-11-02 17:34:11 54

原创 02 | 学习数据挖掘的最佳路径是什么

当拿到一份处理好的数据时,我们首先应该做的是什么呢?是直接上手编写代码构造模型?都说事半功倍,所以在进行数据挖掘之前,我们头脑中的一定要是有个完整的路径,这样,我们就能回溯于每个环节去检查整个项目(构造的模型),同样也是帮我们梳理整个项目的环节,可以帮助我们在项目汇报中,更好地分清楚层次重点。1、数据挖掘的基本流程通常分为六个步骤:1.1、商业理解一切都是从业务出发,然后再回归于业务。所以理解业务需求,也就是目标需求至关重要1.2、数据理解对一小部分数据进行简单的描述,往往数据量都是很大的,从小

2021-10-22 15:10:34 295

原创 01| 数据分析全景图及修炼指南

我理解的数据分析可以分成四个部分,除了老师说的数据采集、数据挖掘和数据可视化三个部分,还有一个数据分析结论部分,在进行数据可视化之后,给出结论通常也就是数据报表部分,并不只是简单地把数据进行统计然后进行展示,如何对可视化的数据给出正确的分析结论相当重要,这部分也会充分显示你对业务的理解,再进行数据分析之后再反哺业务,来更好地进行业务的开展。1、数据采集1、很重要的一点就是数据源,通常是一些专业的数据库,例如医学数据库、生物数据库、一些竞赛的案例数据,当然也可以通过爬虫技术获取一定的数据2、有很多方法

2021-10-20 23:47:03 471

原创 找零问题--动态规划学习笔记

1、递归n = 0def recursive_change(money,coins): global n if money == 0: return 0 minNumCoins = float("inf") for i in range(len(coins)): if money >= coins[i]: if money - coins[i] == 1: n += 1

2021-10-12 13:40:38 81

原创 jupyter notebook 输出显示不完全

import pands as pdpd.set_option('display.max_rows', None) # 设置显示最大行pd.set_option('display.max_columns', None) # 设置显示最大列

2021-08-06 11:16:44 694

原创 jupyter notebook中R语言绘图画布大小设置

options(repr.plot.width=X, repr.plot.height=Y)#设置宽度 X, 高度 Y

2021-07-23 09:44:56 4030

原创 用conda创建python虚拟环境以及在notebook中使用虚拟环境

1、用conda创建python虚拟环境1.1 conda常用的命令1.1.1 查看安装的包conda list1.1.2 查看已有的环境conda env list1.1.3 检查更新当前condaconda update conda1.2 创建虚拟环境conda create -n env_name python=x.x#env_name 为要创建环境的名称,pyhon=x.x为选择的python版本,环境文件在Anaconda安装目录envs下。1.3 激活或者切

2021-07-15 14:23:59 211

原创 cmd命令行--获取目录下的文件名列表

cmd命令行获取目录下的文件名列表dir /b *.文件名后缀 >列表名.txteg: dir /b *.png>image.txt附:参考python中glob类的使用,获取文件夹下的文件路径(文件名)

2021-07-15 11:25:28 2111

原创 topk问题

利用堆排序小根堆时间复杂度O(mlogk)# 小根堆def sift_small(li,top,end): tmp = li[top] i = top j = 2*i + 1 while j <= end: if j + 1 <= end and li[j+1] < li[j]: j = j + 1 if li[j] < tmp: li[i] = li[j]

2021-06-21 11:34:09 79

原创 数据结构-学习笔记-堆排序

堆排序1、二叉树1.1 二叉树每个节点最多有两个子节点,且左右子树的顺序不能任意颠倒1.2满二叉树深度为n, 由2^(n-1)个节点构成的二叉树为满二叉树1.3完全二叉树完全二叉树是由满二叉树而引出来的,设二叉树的深度为n, 如果1->(n-1)层均是满节点的,即为一个满二叉树,且第n层的所有节点都连续集中在左侧2、堆(完全二叉树)大根堆: 每一个父节点都比其子节点大小根堆: 每一个父节点都比其子节点小3、堆排序过程 1.构造堆 2.堆顶元素为最大

2021-06-18 18:04:46 187

原创 数据结构-学习笔记-快速排序

快速排序左右指针的位置递归一般复杂度 O(nlogn) 每一层复杂度O(n),共有logn层最坏复杂度O(n^2) 优化,随机选择一个数与第一个数交换位置先选择一个数(可以是第一个数,也可以是其他位置的数,再跟第一个数交换位置)从右边选择比其小的数放在左边指针位置,从左边选择比其大的数放置右边指针位置处,终止条件算法框架 def Quick_sort(li,left,right): 终止条件(基例) mid = partion(li,left,righ

2021-06-17 11:30:23 72

原创 数据结构-学习笔记-插入排序

插入排序初始时手里(有序区)只有一张牌每次从无序区摸一张牌,插入到手里已有牌的正确位置时间复杂度O(n^2)def Insert_sort(li): for i in range(1,len(li)): tem = li[i] # 摸的牌 for j in range(i-1,-1,-1): if li[j] > tem: li[j+1] = li[j] # 大的牌往右挪一步

2021-06-11 16:56:55 55

原创 数据结构-学习笔记-选择排序

选择排序一趟排序记录最小的数,放到第一个位置再一趟排序记录列表无序区最小的数,放在第二个位置调用函数def Seclect_sort_func(li): sort_list = [] for i in range(len(li)): min_li = min(li) sort_list.append(min_li) li.remove(min_li) return sort_list li = [9,2,5

2021-06-11 12:46:19 105 1

原创 数据结构-学习笔记-冒泡排序

冒泡排序列表每两个相邻的书,如果前面的数比后面的大,则交换这两个数一趟排序后,则无序区减少一个数,有序区增加一个数趟数,无序区,指针的位置时间复杂度 O(n^2)i = 0 (第一趟) {j = 0 to n - 1} 左闭右开i = 1 (第二趟) {j = 0 to n - 2} 左闭右开…i (第i+1趟) {j = 0 to n-i-1} 左闭右开import randomdef Bubble_sort(li): print("排序前: %s"%li) fo

2021-06-10 18:53:22 103

原创 数据结构-学习笔记-查找

顺序查找时间复杂度 O(n)import randomdef Linear_search(li,val): for index,v in enumerate(li): if v == val: return index li = list(range(10))val = 3random.shuffle(li) # 打乱顺序print(li)Linear_search(li,val)# [4, 3, 7, 2, 8,

2021-06-10 16:43:17 43

转载 协方差矩阵理解

本文将针对协方差矩阵做一个详细的介绍,其中包括协方差矩阵的定义、数学背景与意义以及计算公式的推导。

2021-05-14 13:23:31 202

转载 面向对象与面向过程的本质的区别

前言:如果你很想搞明白面向对象是什么,面向过程是什么,或者说二者之间的区别是什么,那么就花费一点时间来研读一下这篇博客,你一定会有很大的收获的!一、面向对象与面向过程的区别面向过程就是分析出解决问题所需要的步骤,然后用函数把这些步骤一步一步实现,使用的时候一个一个依次调用就可以了;面向对象是把构成问题事务分解成各个对象,建立对象的目的不是为了完成一个步骤,而是为了描叙某个事物在整个解决问题的步骤中的行为。可以拿生活中的实例来理解面向过程与面向对象,例如五子棋,面向过程的设计思路就是首先分析问题的步骤

2021-05-13 10:12:39 80

原创 SQL sever 实现数据累加

题目有如下一张表Dscore--测试数据ways-1CREATE TABLE Dscore(monthtime int,score int);INSERT INTO Dscore VALUES (1,10);INSERT INTO Dscore VALUES (2,20);INSERT INTO Dscore VALUES (3,30);INSERT INTO Dscore VALUES (4,50);INSERT INTO Dscore VALUES (5,40);INSERT

2021-01-21 14:35:04 2194

原创 获取一个日期所在的周(月)开始日期,周(月)结束日期

1、获取一个日期所在的周开始日期,周结束日期-- declare @now datetime = getdate(); --获取当前日期 declare @now datetime = '2021-01-15'; --指定日期declare @date datetime = convert(date, @now); declare @start datetime = dateadd(d, 2 - datepart(w, @date), @date), @end datet

2021-01-15 17:36:29 379

原创 查询各科成绩最高分、最低分和平均分(case when then else end)

数据,创建表,查看数据表(代码)~1、查询各科成绩最高分、最低分和平均分:要求:– 以如下形式显示:课程 ID,课程 name,最高分,最低分,平均分,及格率,中等率,优良率,优秀率– 及格为>=60,中等为:70-80,优良为:80-90,优秀为:>=90– 要求输出课程号和选修人数,查询结果按人数降序排列,若人数相同,按课程号升序排列select Course.C#,Course.Cname,A.最高分,A.最低分,A.平均分,B.及格率,C.中等率,D.优良率

2021-01-13 18:27:48 12428

原创 Pandas处理数值特征--按区间切分数据

'''pd.cut( x, # 切分的数据 bins, # 切分的区域 right:bool=True, # 控制左右区间的开和闭 True: 左开右闭 False: 左闭右开 默认为True,即左开右闭 labels=None, # 标签,对应切分的区域,代替返回的bins,不存在时返回NaN retbins:bool=False, # 是否返回区域bins,默认为Fals

2021-01-13 18:00:20 1509

原创 各科成绩排序,不分科目进行成绩排序

1、按成绩(不分科目)进行排序,并显示排名,Score 重复时保留名次空缺select *,RANK()over(order by score desc)名次 from SC

2021-01-13 13:56:10 2940

原创 SQL server 学习(数据实例)

测试表格–1.学生表Student(S#,Sname,Sage,Ssex)–S# 学生编号,Sname 学生姓名,Sage 出生年月,Ssex 学生性别–2.课程表Course(C#,Cname,T#)–C# --课程编号,Cname 课程名称,T# 教师编号–3.教师表Teacher(T#,Tname)–T# 教师编号,Tname 教师姓名–4.成绩表SC(S#,C#,score)–S# 学生编号,C# 课程编号,score 分数创建测试数据学生表 Studentcreate

2021-01-13 12:50:53 516

原创 函数递归--Python代码实例

笔记参考自嵩天老师讲课的pdf~1、函数递归的理解1.1、函数递归的定义1.1.1、函数定义中调用函数自身的方式f(x)={1n=0n(n−1)!otherwisef(x)=\begin{cases}1 & \text{n=0}\\n(n-1)! & \text{otherwise}\end{cases}f(x)={1n(n−1)!​n=0otherwise​1.1.2、两个关键特征–链条:计算过程存在递归链条–基例:存在一个或多个不需要再次递归的基例1.1.3、类似

2021-01-12 15:33:41 652 1

原创 K-means 算法 (Python代码)

## 导入相应的库import randomimport numpy as npimport matplotlib.pyplot as plt## 获取数据(生成)nn = 100 # 每类(maybe)样本数目def get_clusters(): mean1 = [0,0] cov1 = [[0.1,0],[0,0.1]] data1 = np.random.multivariate_normal(mean1,cov1,nn) mean2 = [1

2021-01-06 11:10:02 2364 3

转载 Python列表小技巧

Python列表小技巧参考文章来源于公众号:Python大数据分析 作者:费弗里列表(List)是你使用Python过程中接触最为频繁的数据结构,也是功能最为强大的几种数据结构之一。Python列表非常的万能且蕴含着许多隐藏技巧,下面我们就来探索一些常用的列表技巧。1 列表元素的过滤1.1 filter()的使用filter()函数接受2个参数:1个函数对象以及1个可迭代的对象,接下来我们定义1个函数然后对1个列表进行过滤。首先我们创建1个列表,并且剔除掉小于等于3的元素:1.2 使用列表

2020-08-20 10:19:10 143

翻译 Jupyter Notebook--常用快捷键设置

Jupyter Notebook 存在两种输入模式(Enter键和Esc键切换)。key: 在命令模式状态下输入: H 运行后会显示快捷键帮助Enter键开启编辑模式,允许在单元中输入代码或者文本。Esc : 进入命令模式Ctrl + M : 进入命令模式Ctrl + Enter : 运行本单元Alt + Enter : 运行本单元,在下面插入一单元(处于编辑模式)Shift + Enter : 运行本单元,选中下一单元(处于命令模式)Ctrl + Shift +

2020-08-03 15:09:21 687

原创 Pandas数据处理--替换列中的值

Pandas之替换列中的值(数值,字符串)数据集#dataimport pandas as pddict_data = {'id_card':[111,222,333,444,555,666,777,888],\ 'sex':['f','m','m','f','m','f','f','f'],\ 'BMI':[31,17.5,24.5,23,18.8,26,30,25]}df = pd.DataFrame(dict_data)print(df)

2020-07-22 17:07:37 15347

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除