qq_44647559-CSDN博客

原创 2 用Python实现正态分布的理论

【代码】2 用Python实现正态分布的理论。

2024-10-15 11:27:58 309

1、正态分布基本上能描述所有常见的事物和现象：正常人群的身高、体重、考试成绩、家庭收入等等这些指标① 正态分布属于“连续型随机变量分布”的一类。那么，对于连续型随机变量，我们的研究方法是：不关注“点概率”，只关注“区间概率”。② 假定随机变量X指是“某市成年男子的身高”。对于连续型随机变量，我们通常不研究它取某个特定值的概率，而研究它在某一段区间上的取值，比如身高在1.70～1.80的概率，即为研究的区间概率；③ 曲线越高，也就代表着这个区间的数据越密集。

2024-10-14 16:21:10 633

原创 1 Pandas库中的索引操作

【代码】1 Pandas库中的索引操作。

2024-10-14 11:20:38 144

转载 python 通过openpyxl来操作Excel文件（一）：读取Excel文件

这篇文章讲python 通过openpyxl来读取Excel文件不清楚怎么通过openpyxl来写入Excel文件的小伙伴可以看我另一篇文章传送门python 通过openpyxl来操作Excel文件（二）：写入Excel文件 1.先下载openpyxl模块 pip install openpyxl 2. 读取Excel基本步骤先看一下要读取的文件内容(...

2021-08-04 14:40:14 1151

转载 python通过jdbc连接数据库

‘’’让python通过jdbc连接数据库1、安装visualcppbuildtools_full.exe链接：https://pan.baidu.com/s/1MLxNJfWNGuKIxgNYkJgUnw 密码：3etc2、pip install JayDeBeApihttps://pypi.org/project/JayDeBeApi/3、测试代码‘’’import jaydebeapiurl = ‘jdbc:oracle:thin:@127.0.0.1:1521/orcl’use.

2021-08-04 14:30:28 1448 1

原创 class4 决策树之回归树案例

part1 案例：用回归树来拟合一条曲线，添加噪声来观察回归树的表现# （1）导入库import numpy as np # 生成正弦曲线上的点from sklearn.tree import DecisionTreeRegressor # 回归树import matplotlib.pyplot as plt # 画图# （2）X轴,Y轴数据准备工作'''（1）np.random.ra

2021-05-26 22:49:57 274

原创 class3 决策树之回归树基础

前情提要：（1）回归处理的是连续型变量（2）分类处理的是分类型变量回归树：几乎所有参数，属性及接口都和分类树一摸一样。需要注意的是，在回归树中，没有标签分布是否均衡的问题，因此没有class_weight这样的参数criterion:（1）分类树：不纯度的计算。可以选择基尼系数(gini)或者信息熵(entropy)（2）回归树：没有不纯度的计算。因为处理连续型变量，和分类型变量有区别。【criterion重要参数】回归树衡量分枝质量的指标，支持的标准有3种：（1）mse：

2021-05-26 22:45:53 208

原创 3 DDL语言常见约束的介绍

常见的约束/*含义：一种限制，用于限制表中的数据，为了保证表中的数据的准确和可靠性分类【六大约束】：（1）not null：非空，用于保证该字段的值不能为空。比如姓名、学号等（2）default ：默认，用于保证该字段有默认值。比如性别，默认为男（3）primary key：主键，用于保证该字段的值具有唯一性，并且非空。比如学号（员工编号）则在表中不重复，若有2个主键则组合起来不重复。（4）unique：唯一，用于保证该字段的值具有唯一性，可以为空。

2021-05-24 09:17:11 204

原创 2 DDL语言数据类型的介绍

常见的数据类型/*（1）类型数值型：整型小数：定点数，浮点数字符型：较短的文本：char，varchar较长的文本：text，blob（较长的二进制数据，比如：图片）日期型：date/datetime/timestamp（2）原则所选择的类型越简单越好，能保存数值的类型越小越好*/------------------(1)数值型------------------------------------一整型/*分类：tinyint smallint mediumint

2021-05-24 09:16:41 250

原创 1-1 DDL语言关于库和表的管理 --- 测试题

（1）创建表dept1/*name null? typeid int(7)name varchar(25)*/CREATE DATABASE IF NOT EXISTS my_test;USE my_test;CREATE TABLE dept1(id INT(7),NAME VARCHAR(25));（2）将表departments中的数据插入新表dept2中【departments表在myemployees库中】【dept2表在my_test库中】复制表CREATE T

2021-05-24 09:15:57 260

原创 1 DDL语言关于库和表的管理

DDL/*库和表的管理一库的管理创建，修改，删除二表的管理创建，修改，删除（1）创建：create insert（数据创建）（2）修改：alter update（数据修改）（3）删除：drop delete（数据删除）注意：只有当创建/删除（库/表），才能加上容错性处理*/------------------------（一）库的管理----------------------------------------/*

2021-05-24 09:15:37 134

原创 2 DML插入(insert)修改(update)删除(delete)-----测试题

DML:增删改查1.运行以下脚本创建表my_employeesUSE myemployees;CREATE TABLE my_employees(id INT(10),first_name VARCHAR(10),last_name VARCHAR(10),userID VARCHAR(10),salary DOUBLE(10, 2));CREATE TABLE users(id INT,userid VARCHAR(10),department_id INT);2.显示表my

2021-05-19 10:31:09 153

原创 1 DML语言之插入（insert）修改（update）删除（delete）

DML语言/*数据操作语言插入：insert修改：update删除：delete*/------------------------------------------一、插入语句--------------------------------------------------------------------------------------一、插入语句/*方式一：经典的插入insert into 表名（列名，…） values（值1，…）方式二：插入insert into

2021-05-19 10:30:36 156

原创进阶9 联合查询

进阶9 联合查询/*union 联合，合并：将多条查询语句的结果合并成一个结果语法：查询语句1union查询语句2union…特点：（1）要查询的结果来自于多个表，且多个表没有直接的连接关系，但查询的信息一致时（2）要求多条查询语句的查询列数是一致的（3）要求多条查询语句的查询的每一列的类型和顺序最好一致（4）union，自动去重（5）union all，不去重注意：（1）表连接是增加不同字段。【多个表，有直接的连接关系】（2）联合是增加同字段多行数据。【多个表，没

2021-05-17 15:51:51 132

原创进阶8-2 分页查询-----测试题

本节是测试题，不涉及真表，故不运行已知表1 stuinfoid 学号stu_name 姓名email 邮箱 # john@126.comgradeId 年级编号sex 性别 # 男女age 年龄已知表2 gradeid 年级编号gradeName 年级名称案例1：查询所有学员的邮箱的用户名（注：邮箱中 @前面的字符）【解析】（1）substr instr 都是索引从1开始的limit的索引从0开始（2）substr(email, 1, 5)

2021-05-17 15:51:15 155

原创进阶8-2 分页查询

进阶8：分页查询*****/*应用场景：当要显示的数据，一页显示不全，需要分页提交sql请求【类似于爬虫】语法：select 查询列表 # step5from 表1 # step1【join type join 表2on 连接条件where 筛选条件 # step2group by 分组字段 # step3having 分组

2021-05-17 15:50:54 171

原创进阶8 子查询-----作业讲解

（1）查询每个专业的学生人数SELECT COUNT(*), majoridFROM studentGROUP BY majorid;（2）查询参加考试的学生中，每个学生的平均分、最高分SELECT AVG(score), MAX(score), studentnoFROM resultGROUP BY studentno;（3）查询姓张的每个学生的最低分大于60的学号、姓名注意：left join，以因为有可能有学生没有成绩。stuent表为主表SELECT studentno, st

2021-05-17 15:49:10 155

原创进阶8 子查询-----经典案例讲解

（1）查询工资最低的员工信息：last_name，salarystep1:查询最低的工资SELECT MIN(salary)FROM employees;step2:查询last_name，salary，要求salary=❶SELECT last_name, salaryFROM employeesWHERE salary = (SELECT MIN(salary)FROM employees);（2）查询平均工资最低的部门信息方法1 ------- 简单（如果是多个相同的最低工资但

2021-05-17 15:48:39 103

原创进阶8 子查询------测试题

class 87-99 子查询--------------------（一）案例讲解：子查询----------------------------------------------/*（1）子查询的本质就是创建一个中间表。一个、一列、一行、多行多列，都是表。（2）本质：在于分析筛选条件*/（1）查询和zlotkey相同部门的员工姓名和工资step1:查询zlotkey的部门SELECT department_idFROM employeesWHERE last_name = ‘zlo

2021-05-17 15:48:09 167

原创进阶8 子查询

class 87-99 子查询/*含义：（1）出现在其他语句中的select语句，称为子查询或内查询（2）外部的查询语句，称为主查询或外查询分类：按子查询出现的位置：（1）select后面：【了解即可】仅仅支持标量子查询（2）from后面：支持表子查询（3）where或having后面： ★★★★★支持标量子查询（单行单列） ★★★★★支持列子查询（1列多行） ★★★★★支持行子查

2021-05-17 15:47:49 226 1

转载进阶7 补充二：Mysql—— 内连接、左连接、右连接以及全连接查询

今天去进行了面试，遇到了内连接与、左连接、右连接的区别，由于好久没用过了，回家进行了测试，下面是结果。希望能帮助大家！首先，我这有两个表，里面的数据去这样的：表和数据准备好了，接下来进行操作：（1）先说左连接查询：左连接：在 LEFT JOIN 左边的表里面数据全被全部查出来，右边的数据只会查出符合ON后面的符合条件的数据，不符合的会用NULL代替。注意：以左表为基准，将右表与左表的连接字段一一比较。（2...

2021-05-15 14:55:35 194

原创 10 ---- pandas案例2之豆瓣电影直方图（pandas）

【问题1】豆瓣电影时长直方图 ---- 等宽组距，组距为整数（故直接传组距）[分析]（1）由于“电影评分”和“电影时长”都有1000条数据，故没有缺失值。故不需要对缺失值进行处理。（2）电影时长 80 -- 150分钟绘制区间为80--90，90--100，100--110，...，140--150，每个区间电影个数的直方图（3）电影评分 0--10 分绘制区间为0--1，1--2，2--3，...，9--10，每个区间电影个数的直方图[提取数据]（1）runtime_data = d

2021-05-11 20:03:33 382

原创 09 ---- pandas案例1之PM2.5（pandas）

【问题1】时间不是一段连续的时间戳，而是分散的。怎么办?（1）若要对时间段降采样：首先要设置为索引，然后才能调用 data = df.resample('M').count()['title']（2）转化为时间类型有2种方式：方法1：时间戳 -----连续的时间段df['timeStamp'] = pd.to_datetime（df['timeStamp']） # （1）将时间戳 ------> DataFrame的时间类型df.set_

2021-05-11 20:02:05 144

原创 8 --- 时间序列案例（pandas）

【问题1】（1）统计出911数据中“不同月份”（总的）电话次数的变化情况 ---- 折线图（2）统计出911数据中“不同月份不同类型”的（分别的）电话次数的变化情况 ---- 折线图'timeStamp'---- 时间戳'cate' ---- 不同类型 # （1）统计出911数据中“不同月份”电话次数的变化情况 ---- 折线图import pandas as pdfrom matplotlib import pyp

2021-05-11 19:56:08 222

原创 7 --- 时间序列（pandas）

【问题1】生成一段时间范围（1）pd.date_range（start=None，end=None，periods=None，freq='D'）注意：periods = 10，有10个 freq = 'D' 天 freq = 'M' 每月最后一天（MonthEnd） freq = 'BM' 每月最后一个工作日（BusinessMonthEnd） freq = 'MS' 每月第1天（MonthBegin） freq = 'H

2021-05-11 19:55:38 102

原创 6 --- 数据的合并和分组聚合之案例2（pandas）

【问题1】pandas时间序列01现在我们有2015到2017年25万条911的紧急电话的数据（1）请统计出这些数据中“不同类型的紧急情况的次数”# case1 ----- 前情提要import pandas as pdimport numpy as npdf = pd.read_csv('./code2/911.csv')print('\n【df.head()】')print(df.head()) # df.head（） ------ 默认前5行print

2021-05-11 19:54:57 114

原创 5 --- 数据的合并和分组聚合之案例1（pandas）

【案例1】（1）使用matplotlib呈现出店铺总数排名前10的国家（2）使用matplotlib呈现出中国每个城市的店铺数量# （1）使用matplotlib呈现出店铺总数排名前10的国家'''（1） df.groupby(by='Country') 按照国家进行分组（2） sort_values：默认升序（ascending=True） ascend：上升（3） [:10] 切片：取前10行（4） df.index 索引 df.values 索引所对

2021-05-11 19:54:04 147

原创 4 ---- 数据的合并和分组聚合（pandas）

【问题1】字符串离散化的案例案例：对于这一组电影数据，如果我们希望统计电影分类（genre）的情况，应该如何处理数据？例如，喜剧片的电影个数，冒险片的电影个数，爱情片的电影个数......思路：（1）重新构造一个全为0的数组，列名为分类。（2）如果某一条数据中分类出现过，就让0变为1.（3）最后统计每个分类（即列表的列）的电影个数（即1的个数）注意：（1）新数组的行数和以前一样（2）新数组的列数是所有的genre（不重复）# case1 ---- 前情提要import p

2021-05-10 09:34:11 144

原创 3 ---- pandas统计方法（pandas）

【问题1】pandas的常用统计方法（1）评分的平均分rating_mean = df['Rating'].mean()（2）导演的人数【方法1】temp_list = df['Actors'].str.split（','）.tolist()all_temp_list = [i for j in temp_list for i in j]nums = set（all_temp_list）len(nums)【方法2】temp_list = df['Director'].unique(

2021-05-10 09:33:36 163

原创 2 --- dataframe（pandas）

前情提要：【pandas的常用数据类型】（1）Series一维，带标签数组（2）DataFrame二维，Series容器【DataFrame对象既有行索引，又有列索引】（1）列索引，表明不同列，纵向索引，叫columns，1轴，axis=1（表现为行）（2）行索引，表明不同行，横向索引，叫inde，0轴，axis=0 （表现为列）【问题1】pandas之DataFrame的创建'''有2个问题：（1）DataFrame和Series有什么关系？* DataFrame的每一行

2021-05-10 09:33:05 92

原创 1 ---- series和读取外部数据（pandas）

【前情提要】为什么要学习pandasbecause（1）numpy能够帮助我们处理数据，能够结合matplotlib解决数据分析的问题，那么pandas学习的目的是什么呢？（2）numpy主要解决数值型数据。（3）而数据除了数值外，还有字符串，还有时间序列等.（4）比如：我们通过爬虫获取到了存储在数据库中的数据（5）比如：之前YouTube的例子中除了数值外还有国家的信息，视频的分类（tag）信息，标题信息等so（1）所以，numpy能够帮助我们处理数值，但是pandas除了处理数值之外（基

2021-05-10 09:32:24 100

原创 0 --- 前情提要（pandas）

【问题1】分组聚合-----非时间类型import pandas as pdfrom matplotlib import pyplot as pltdf = pd.read_csv('./books-Copy1.csv')# step1：去掉"年份"中的缺失值df1 = df[ pd.notnull(df['original_publication_year']) ]# step2：按照”年份“分组，再求评分的平均值'''注意：下面这3种方式是一样的。推荐第二种（1）应

2021-05-10 09:31:48 86

原创 5------youtube数据的练习（numpy）

【动手】（1）英国和美国各自YouTube的数据结合之前的matplotlib绘制出各自的评论数量的直方图 ---- 直方图注意：可以传列表，解决组距除不尽的情况（2）希望了解英国的YouTube中视频的评论数和喜欢数的关系，应该如何绘制该图 ---- 散点图注意：趋势是折线图，相关是散点图【问题1】英国和美国各自YouTube的数据结合之前的matplotlib绘制出各自的评论数量的直方图 ---- 直方图注意：可以传列表，解决组距除不尽的情况# 第一次绘图'''点击，

2021-05-10 09:25:18 172

原创 4------- numpy中的nan（numpy）

【问题1】判断非0元素的个数（判断为1元素的个数）'''判断非0元素的个数：np.count_nonzero(t3)'''import numpy as npt1 = np.arange(24).reshape(4,6)t2 = t1.astype('float')t2[3,3] = np.nant2[2,3] = np.nanprint(t2)t2[:,0] = 0 # 第0列的元素设为0print(t2) t3 = np.count_nonzero(t2)

2021-05-10 09:22:31 114

原创 3----------numpy中的常用方法（numpy）

【问题1】：现在我希望把之前案例中两个国家的数据方法一起来研究分析，那么应该怎么做？案例1-----数组的拼接 np.vstack（（t1,t2））-----竖直拼接（vertically） np.hstack（ (t1,t2) ）------ 水平拼接（horizontally）import numpy as npt1 = np.arange(12).reshape(2,6)print(t1)t2 = np.array(range(12,2

2021-05-10 09:21:57 83

原创 2----------numpy读取本地数据和索引（numpy）

【numpy读取数据】np.loadtxt(fname，dtype='float'，delimiter=None，skiprows=0，usecols=None，unpack=False)注意：fname：文件，字符串或产生器可以是.gz或bz2压缩文件dtype：数据类型，可选，csv的字符串以什么数据类型读入数组中，默认 np.floatdelimiter：分隔字符串，默认是任何空格，改为“逗号”skiprows：跳过前x行，一般跳过第一行表头usecols：读取指定的列，索引，元组类型

2021-05-10 09:21:24 174

原创 1---------numpy数组（numpy）

案例1------基础回顾注意：（1）下标---------------字符串，列表，元组无下标-------------字典，集合（2）可变类型-----------列表，字典，集合（元组只能根据下标进行查找，不能进行修改）不可变类型---------字符串my_list = [1,'lisa',True]print(my_list[1]) # lisa------列表my_tuple = ('aa','bb','cc','dd')pri

2021-05-10 09:20:54 107

原创 4---直方图（matplotlib）

案例1 ----- 直方图（matplotlib）'''题目：假设你获取了250部电影的时长（列表a中），希望统计出这些电影时长的分布状态（比如时长为100分钟到120分钟电影的数量，出现的频率）等信息，你应该如何呈现这些数据？ a=[131, 98, 125, 131, 124, 139, 131, 117, 128, 108, 135, 138, 131, 102, 107, 114, 119, 128, 121, 142, 127, 130, 124, 101, 11

2021-05-09 22:07:38 108

原创 3---条形图（matplotlib）

案例1-----竖着的条形图（matplotlib）'''竖着的条形图：plt.bar(x,y,width=0.2)假如你获取到了2017年内地电影票房前20的电影（列表a）和电影票房数据（列表b），那么如何更加直观的展示该数据？a = ["战狼2","速度与激情8","功夫瑜伽","西游伏妖篇","变形金刚5：最后的骑士","摔跤吧！爸爸","加勒比海盗5：死无对证","金刚：骷髅岛","极限特工：终极回归","生化危机6：终章","乘风破浪","神偷奶爸3","智取威虎山","大闹天竺","金

2021-05-09 22:05:30 131

原创 2---散点图（matplotlib）

'''散点图：plt.scatter(x,y)题目：假设通过爬虫你获取到了北京2016年3，10月份每天白天的最高气温（分别位于列表a,b），那么此时如何寻找出气温和随时间（天）变化的某种规律？a = [11,17,16,11,12,11,12,6,6,7,8,9,12,15,14,17,18,21,16,17,20,14,15,15,15,19,21,22,22,22,23]b = [26,26,28,19,21,17,16,19,18,20,20,19,22,23,17,20,21,20,22,

2021-05-09 22:03:24 120

空空如也

空空如也