自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(58)
  • 收藏
  • 关注

转载 python 通过openpyxl来操作Excel文件(一 ):读取Excel文件

这篇文章讲python 通过openpyxl来读取Excel文件 不清楚怎么通过openpyxl来写入Excel文件的小伙伴可以看我另一篇文章  传送门python 通过openpyxl来操作Excel文件(二 ):写入Excel文件 1.先下载openpyxl模块 pip install openpyxl 2. 读取Excel基本步骤 先看一下要读取的文件内容(...

2021-08-04 14:40:14 1056

转载 python通过jdbc连接数据库

‘’’让python通过jdbc连接数据库1、安装visualcppbuildtools_full.exe链接:https://pan.baidu.com/s/1MLxNJfWNGuKIxgNYkJgUnw 密码:3etc2、pip install JayDeBeApihttps://pypi.org/project/JayDeBeApi/3、测试代码‘’’import jaydebeapiurl = ‘jdbc:oracle:thin:@127.0.0.1:1521/orcl’use.

2021-08-04 14:30:28 1341 1

原创 class4 决策树之回归树案例

part1 案例: 用回归树来拟合一条曲线,添加噪声来观察回归树的表现# (1)导入库import numpy as np # 生成正弦曲线上的点from sklearn.tree import DecisionTreeRegressor # 回归树import matplotlib.pyplot as plt # 画图# (2)X轴,Y轴数据准备工作'''(1)np.random.ra

2021-05-26 22:49:57 227

原创 class3 决策树之回归树基础

前情提要:(1)回归处理的是连续型变量(2)分类处理的是分类型变量回归树:几乎所有参数,属性及接口都和分类树一摸一样。需要注意的是,在回归树中,没有标签分布是否均衡的问题,因此没有class_weight这样的参数criterion:(1)分类树:不纯度的计算。可以选择基尼系数(gini)或者信息熵(entropy)(2)回归树:没有不纯度的计算。因为处理连续型变量,和分类型变量有区别。【criterion重要参数】回归树衡量分枝质量的指标,支持的标准有3种:(1)mse:

2021-05-26 22:45:53 172

原创 3 DDL语言 常见约束的介绍

常见的约束/*含义:一种限制,用于限制表中的数据,为了保证表中的数据的准确和可靠性分类【六大约束】:(1)not null:非空,用于保证该字段的值不能为空。 比如姓名、学号等(2)default :默认,用于保证该字段有默认值。 比如性别,默认为男(3)primary key:主键,用于保证该字段的值具有唯一性,并且非空。比如学号(员工编号)则在表中不重复,若有2个主键则组合起来不重复。(4)unique:唯一,用于保证该字段的值具有唯一性,可以为空。

2021-05-24 09:17:11 161

原创 2 DDL语言 数据类型的介绍

常见的数据类型/*(1)类型数值型:整型小数:定点数,浮点数字符型:较短的文本:char,varchar较长的文本:text,blob(较长的二进制数据,比如:图片)日期型:date/datetime/timestamp(2)原则所选择的类型越简单越好,能保存数值的类型越小越好*/------------------(1)数值型------------------------------------一 整型/*分类:tinyint smallint mediumint

2021-05-24 09:16:41 225

原创 1-1 DDL语言 关于库和表的管理 --- 测试题

(1)创建表dept1/*name null? typeid int(7)name varchar(25)*/CREATE DATABASE IF NOT EXISTS my_test;USE my_test;CREATE TABLE dept1(id INT(7),NAME VARCHAR(25));(2)将表departments中的数据插入新表dept2中【departments表在myemployees库中】【dept2表在my_test库中】复制表CREATE T

2021-05-24 09:15:57 217

原创 1 DDL语言 关于库和表的管理

DDL/*库和表的管理一 库的管理创建,修改,删除二 表的管理创建,修改,删除(1)创建:create insert(数据创建)(2)修改:alter update(数据修改)(3)删除:drop delete(数据删除)注意:只有当创建/删除(库/表),才能加上容错性处理*/------------------------(一)库的管理----------------------------------------/*

2021-05-24 09:15:37 103

原创 2 DML插入(insert)修改(update)删除(delete)-----测试题

DML:增删改查1.运行以下脚本创建表my_employeesUSE myemployees;CREATE TABLE my_employees(id INT(10),first_name VARCHAR(10),last_name VARCHAR(10),userID VARCHAR(10),salary DOUBLE(10, 2));CREATE TABLE users(id INT,userid VARCHAR(10),department_id INT);2.显示表my

2021-05-19 10:31:09 127

原创 1 DML语言之插入(insert)修改(update)删除(delete)

DML语言/*数据操作语言插入:insert修改:update删除:delete*/------------------------------------------一、插入语句--------------------------------------------------------------------------------------一、插入语句/*方式一:经典的插入insert into 表名(列名,…) values(值1,…)方式二:插入insert into

2021-05-19 10:30:36 113

原创 进阶9 联合查询

进阶9 联合查询/*union 联合,合并:将多条查询语句的结果合并成一个结果语法:查询语句1union查询语句2union…特点:(1)要查询的结果来自于多个表,且多个表没有直接的连接关系,但查询的信息一致时(2)要求多条查询语句的查询列数是一致的(3)要求多条查询语句的查询的每一列的类型和顺序最好一致(4)union,自动去重(5)union all,不去重注意:(1)表连接是增加不同字段。 【多个表,有直接的连接关系】(2)联合是增加同字段多行数据。【多个表,没

2021-05-17 15:51:51 100

原创 进阶8-2 分页查询-----测试题

本节是测试题,不涉及真表,故不运行已知表1 stuinfoid 学号stu_name 姓名email 邮箱 # john@126.comgradeId 年级编号sex 性别 # 男 女age 年龄已知表2 gradeid 年级编号gradeName 年级名称案例1:查询 所有学员的邮箱的用户名(注:邮箱中 @前面的字符)【解析】(1)substr instr 都是索引从1开始的limit的索引从0开始(2)substr(email, 1, 5)

2021-05-17 15:51:15 129

原创 进阶8-2 分页查询

进阶8:分页查询*****/*应用场景:当要显示的数据,一页显示不全,需要分页提交sql请求【类似于爬虫】语法:select 查询列表 # step5from 表1 # step1【join type join 表2on 连接条件where 筛选条件 # step2group by 分组字段 # step3having 分组

2021-05-17 15:50:54 138

原创 进阶8 子查询-----作业讲解

(1)查询每个专业的学生人数SELECT COUNT(*), majoridFROM studentGROUP BY majorid;(2)查询参加考试的学生中,每个学生的平均分、最高分SELECT AVG(score), MAX(score), studentnoFROM resultGROUP BY studentno;(3)查询姓张的每个学生的最低分大于60的学号、姓名注意:left join,以因为有可能有学生没有成绩。stuent表为主表SELECT studentno, st

2021-05-17 15:49:10 121

原创 进阶8 子查询-----经典案例讲解

(1)查询工资最低的员工信息:last_name,salarystep1:查询最低的工资SELECT MIN(salary)FROM employees;step2:查询last_name,salary,要求salary=❶SELECT last_name, salaryFROM employeesWHERE salary = (SELECT MIN(salary)FROM employees);(2)查询平均工资最低的部门信息方法1 ------- 简单(如果是多个相同的最低工资但

2021-05-17 15:48:39 72

原创 进阶8 子查询------测试题

class 87-99 子查询--------------------(一)案例讲解:子查询----------------------------------------------/*(1)子查询的本质就是创建一个中间表。一个、一列、一行、多行多列,都是表。(2)本质:在于分析筛选条件*/(1)查询和zlotkey相同部门的员工姓名和工资step1:查询zlotkey的部门SELECT department_idFROM employeesWHERE last_name = ‘zlo

2021-05-17 15:48:09 127

原创 进阶8 子查询

class 87-99 子查询/*含义:(1)出现在其他语句中的select语句,称为子查询或内查询(2)外部的查询语句,称为主查询或外查询分类:按子查询出现的位置:(1)select后面: 【了解即可】仅仅支持标量子查询(2)from后面:支持表子查询(3)where或having后面: ★★★★★支持标量子查询(单行单列) ★★★★★支持列子查询 (1列多行) ★★★★★支持行子查

2021-05-17 15:47:49 131 1

转载 进阶7 补充二:Mysql—— 内连接、左连接、右连接以及全连接查询

今天去进行了面试,遇到了内连接与、左连接、右连接的区别,由于好久没用过了,回家进行了测试,下面是结果。希望能帮助大家! 首先,我这有两个表,里面的数据去这样的: 表和数据准备好了,接下来进行操作: (1)先说左连接查询: 左连接:在 LEFT JOIN 左边的表里面数据全被全部查出来,右边的数据只会查出符合ON后面的符合条件的数据,不符合的会用NULL代替。注意:以左表为基准,将右表与左表的连接字段一一比较。 (2...

2021-05-15 14:55:35 156

原创 10 ---- pandas案例2之豆瓣电影直方图(pandas)

【问题1】豆瓣电影时长直方图 ---- 等宽组距,组距为整数(故直接传组距)[分析](1)由于“电影评分”和“电影时长”都有1000条数据,故没有缺失值。故不需要对缺失值进行处理。(2)电影时长 80 -- 150分钟绘制区间为80--90,90--100,100--110,...,140--150,每个区间电影个数的直方图(3)电影评分 0--10 分绘制区间为0--1,1--2,2--3,...,9--10,每个区间电影个数的直方图[提取数据](1)runtime_data = d

2021-05-11 20:03:33 305

原创 09 ---- pandas案例1之PM2.5(pandas)

【问题1】 时间不是一段连续的时间戳,而是分散的。怎么办?(1)若要对时间段降采样:首先要设置为索引,然后才能调用 data = df.resample('M').count()['title'](2)转化为时间类型有2种方式:方法1:时间戳 -----连续的时间段df['timeStamp'] = pd.to_datetime(df['timeStamp']) # (1)将时间戳 ------> DataFrame的时间类型df.set_

2021-05-11 20:02:05 99

原创 8 --- 时间序列案例(pandas)

【问题1】(1)统计出911数据中“不同月份”(总的)电话次数的变化情况 ---- 折线图(2)统计出911数据中“不同月份不同类型”的(分别的)电话次数的变化情况 ---- 折线图'timeStamp'---- 时间戳'cate' ---- 不同类型 # (1)统计出911数据中“不同月份”电话次数的变化情况 ---- 折线图import pandas as pdfrom matplotlib import pyp

2021-05-11 19:56:08 188

原创 7 --- 时间序列(pandas)

【问题1】生成一段时间范围(1)pd.date_range(start=None,end=None,periods=None,freq='D')注意:periods = 10,有10个 freq = 'D' 天 freq = 'M' 每月最后一天(MonthEnd) freq = 'BM' 每月最后一个工作日(BusinessMonthEnd) freq = 'MS' 每月第1天(MonthBegin) freq = 'H

2021-05-11 19:55:38 74

原创 6 --- 数据的合并和分组聚合之案例2(pandas)

【问题1】pandas时间序列01现在我们有2015到2017年25万条911的紧急电话的数据(1)请统计出这些数据中“不同类型的紧急情况的次数”# case1 ----- 前情提要import pandas as pdimport numpy as npdf = pd.read_csv('./code2/911.csv')print('\n【df.head()】')print(df.head()) # df.head() ------ 默认前5行print

2021-05-11 19:54:57 81

原创 5 --- 数据的合并和分组聚合之案例1(pandas)

【案例1】(1)使用matplotlib呈现出店铺总数排名前10的国家(2)使用matplotlib呈现出中国每个城市的店铺数量# (1)使用matplotlib呈现出店铺总数排名前10的国家'''(1) df.groupby(by='Country') 按照国家进行分组(2) sort_values:默认升序(ascending=True) ascend:上升(3) [:10] 切片:取前10行(4) df.index 索引 df.values 索引所对

2021-05-11 19:54:04 115

原创 4 ---- 数据的合并和分组聚合(pandas)

【问题1】字符串离散化的案例案例:对于这一组电影数据,如果我们希望统计电影分类(genre)的情况,应该如何处理数据?例如,喜剧片的电影个数,冒险片的电影个数,爱情片的电影个数......思路:(1)重新构造一个全为0的数组,列名为分类。(2)如果某一条数据中分类出现过,就让0变为1.(3)最后统计每个分类(即列表的列)的电影个数(即1的个数)注意:(1)新数组的行数和以前一样(2)新数组的列数是所有的genre(不重复)# case1 ---- 前情提要import p

2021-05-10 09:34:11 114

原创 3 ---- pandas统计方法(pandas)

【问题1】pandas的常用统计方法(1)评分的平均分rating_mean = df['Rating'].mean()(2)导演的人数【方法1】temp_list = df['Actors'].str.split(',').tolist()all_temp_list = [i for j in temp_list for i in j]nums = set(all_temp_list)len(nums)【方法2】temp_list = df['Director'].unique(

2021-05-10 09:33:36 129

原创 2 --- dataframe(pandas)

前情提要:【pandas的常用数据类型】(1)Series一维,带标签数组(2)DataFrame二维,Series容器【DataFrame对象既有行索引,又有列索引】(1)列索引,表明不同列,纵向索引,叫columns,1轴,axis=1(表现为行)(2)行索引,表明不同行,横向索引,叫inde,0轴,axis=0 (表现为列)【问题1】pandas之DataFrame的创建'''有2个问题:(1)DataFrame和Series有什么关系?* DataFrame的每一行

2021-05-10 09:33:05 57

原创 1 ---- series和读取外部数据(pandas)

【前情提要】为什么要学习pandasbecause(1)numpy能够帮助我们处理数据,能够结合matplotlib解决数据分析的问题,那么pandas学习的目的是什么呢?(2)numpy主要解决数值型数据。(3)而数据除了数值外,还有字符串,还有时间序列等.(4)比如:我们通过爬虫获取到了存储在数据库中的数据(5)比如:之前YouTube的例子中除了数值外还有国家的信息,视频的分类(tag)信息,标题信息等so(1)所以,numpy能够帮助我们处理数值,但是pandas除了处理数值之外(基

2021-05-10 09:32:24 60

原创 0 --- 前情提要(pandas)

【问题1】分组聚合-----非时间类型import pandas as pdfrom matplotlib import pyplot as pltdf = pd.read_csv('./books-Copy1.csv')# step1:去掉"年份"中的缺失值df1 = df[ pd.notnull(df['original_publication_year']) ]# step2:按照”年份“分组,再求评分的平均值'''注意:下面这3种方式是一样的。推荐第二种(1)应

2021-05-10 09:31:48 55

原创 5------youtube数据的练习(numpy)

【动手】(1)英国和美国各自YouTube的数据结合之前的matplotlib绘制出各自的评论数量的直方图 ---- 直方图注意:可以传列表,解决组距除不尽的情况(2)希望了解英国的YouTube中视频的评论数和喜欢数的关系,应该如何绘制该图 ---- 散点图注意:趋势是折线图,相关是散点图【问题1】英国和美国各自YouTube的数据结合之前的matplotlib绘制出各自的评论数量的直方图 ---- 直方图注意:可以传列表,解决组距除不尽的情况# 第一次绘图'''点击,

2021-05-10 09:25:18 142

原创 4------- numpy中的nan(numpy)

【问题1】判断非0元素的个数(判断为1元素的个数)'''判断非0元素的个数:np.count_nonzero(t3)'''import numpy as npt1 = np.arange(24).reshape(4,6)t2 = t1.astype('float')t2[3,3] = np.nant2[2,3] = np.nanprint(t2)t2[:,0] = 0 # 第0列的元素设为0print(t2) t3 = np.count_nonzero(t2)

2021-05-10 09:22:31 66

原创 3----------numpy中的常用方法(numpy)

【问题1】:现在我希望把之前案例中两个国家的数据方法一起来研究分析,那么应该怎么做?案例1-----数组的拼接 np.vstack((t1,t2))-----竖直拼接(vertically) np.hstack( (t1,t2) )------ 水平拼接(horizontally)import numpy as npt1 = np.arange(12).reshape(2,6)print(t1)t2 = np.array(range(12,2

2021-05-10 09:21:57 46

原创 2----------numpy读取本地数据和索引(numpy)

【numpy读取数据】np.loadtxt(fname,dtype='float',delimiter=None,skiprows=0,usecols=None,unpack=False)注意:fname:文件,字符串或产生器可以是.gz或bz2压缩文件dtype:数据类型,可选,csv的字符串以什么数据类型读入数组中,默认 np.floatdelimiter:分隔字符串,默认是任何空格,改为“逗号”skiprows:跳过前x行,一般跳过第一行表头usecols:读取指定的列,索引,元组类型

2021-05-10 09:21:24 131

原创 1---------numpy数组(numpy)

案例1------基础回顾注意:(1)下标---------------字符串,列表,元组 无下标-------------字典,集合(2)可变类型-----------列表,字典,集合(元组只能根据下标进行查找,不能进行修改) 不可变类型---------字符串my_list = [1,'lisa',True]print(my_list[1]) # lisa------列表my_tuple = ('aa','bb','cc','dd')pri

2021-05-10 09:20:54 83

原创 4---直方图(matplotlib)

案例1 ----- 直方图(matplotlib)'''题目:假设你获取了250部电影的时长(列表a中),希望统计出这些电影时长的分布状态(比如时长为100分钟到120分钟电影的数量,出现的频率)等信息, 你应该如何呈现这些数据? a=[131, 98, 125, 131, 124, 139, 131, 117, 128, 108, 135, 138, 131, 102, 107, 114, 119, 128, 121, 142, 127, 130, 124, 101, 11

2021-05-09 22:07:38 84

原创 3---条形图(matplotlib)

案例1-----竖着的条形图(matplotlib)'''竖着的条形图:plt.bar(x,y,width=0.2)假如你获取到了2017年内地电影票房前20的电影(列表a)和电影票房数据(列表b),那么如何更加直观的展示该数据?a = ["战狼2","速度与激情8","功夫瑜伽","西游伏妖篇","变形金刚5:最后的骑士","摔跤吧!爸爸","加勒比海盗5:死无对证","金刚:骷髅岛","极限特工:终极回归","生化危机6:终章","乘风破浪","神偷奶爸3","智取威虎山","大闹天竺","金

2021-05-09 22:05:30 102

原创 2---散点图(matplotlib)

'''散点图:plt.scatter(x,y)题目:假设通过爬虫你获取到了北京2016年3,10月份每天白天的最高气温(分别位于列表a,b),那么此时如何寻找出气温和随时间(天)变化的某种规律?a = [11,17,16,11,12,11,12,6,6,7,8,9,12,15,14,17,18,21,16,17,20,14,15,15,15,19,21,22,22,22,23]b = [26,26,28,19,21,17,16,19,18,20,20,19,22,23,17,20,21,20,22,

2021-05-09 22:03:24 82

原创 1---折线图(matplotlib)

'''折线图:plt.plot(x,y)题目:你和同桌从11岁到30岁每年交的女(男)朋友的数量如列表a和b,请在一个图中绘制出该数据的折线图,以便比较自己和同桌20年间的差异,同时分析每年交女(男)朋友的数量趋势a = [1, 0, 1, 1, 2, 4, 3, 2, 3, 4, 4, 5, 6, 5, 4, 3, 3, 1, 1, 1]b = [1, 0, 3, 1, 2, 2, 3, 3, 2, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1]要求:Y轴表示个数X轴表示岁

2021-05-09 21:52:48 99

原创 进阶7 连接查询(sql99内连接,外连接,交叉连接)测试题

class 86多表连接案例讲解一、查询编号>3的女神的男朋友信息。如果有则列出详细,如果没有则用null填充解析:(1)最终查询的是男朋友信息,故boys表是主表(2)左连接:只显示完整的主表的信息,从表不匹配则为nullSELECT bo.*, b.id, b.nameFROM boys boLEFT JOIN beauty bON b.boyfriend_id = bo.idWHERE b.id > 3;二、查询编号>3的女神及所对应的男朋友信息。如果有则列出详细,

2021-05-09 19:59:19 544

原创 进阶7 连接查询(sql99内连接,外连接,交叉连接)

class 78—81 sql99内连接(等值连接,非等值连接,自连接)class 82—83 sql99外连接(左外连接,右外连接,全外连接)class 84 sql99交叉连接class 85 总结连接查询/*分类:(1)按年代分类:sql标准(仅仅支持内连接) sql99标准【推荐】(支持内连接)(支持外连接:左外和右外)(支持交叉连接)(2)按功能分类:内连接(等值连接,非等值连接,自连接) 外连接(左外连接,右外连接,全外连接) 交叉连接*/二、ssq

2021-05-09 19:58:38 215

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除