Smile_L77-CSDN博客

原创 Datawhale统计学习打卡Day1

第一章概念总结习题1.1 说明伯努利模型的极大似然估计以及贝叶斯估计中的统计学习方法三要素。伯努利模型是定义在取值为0与1的随机变量上的概率分布。假设观测到伯努利模型n次独立的数据生成结果，其中k次的结果为1，这时可以用极大似然估计或贝叶斯估计来估计结果为1的概率。1.2 通过经验风险最小化推导极大似然估计。证明模型是条件概率分布，当损失函数是对数损失函数时，经验风险最小化等价于极大似然估计。

2023-02-15 23:23:06 218

xlsx格式通过 openpyxl 模块打开； xls格式通过 xlwt 模块写， xlrd 模块读取。#xls#多行内容显现from IPython.core.interactiveshell import InteractiveShellInteractiveShell.ast_node_interactivity = "all"import * 和 from…import… 的区别import 导入一个模块，相当于导入的是一个文件夹，相对路径。from…import… 导入了一个.

2021-11-19 23:18:57 709

原创文件自动化与邮件处理

2021-11-19 21:27:43 703

原创数据可视化Day3

1 子图使用 plt.subplots 绘制均匀状态下的子图返回元素：画布和子图构成的列表，两个数字分别为行和列。figsize 参数可以指定整个画布的大小sharex 和 sharey 分别表示是否共享横轴和纵轴刻度tight_layout 函数可以调整子图的相对大小使字符不会重叠fig, axs = plt.subplots(2, 5, figsize=(10, 4), sharex=True, sharey=True)fig.suptitle('样例1', size=

2021-09-22 00:21:32 219

原创数据可视化Day2

1 概述import matplotlib.pyplot as pltimport numpy as np#step1#用matplotlib.pyplot.figure()创建一个Figure个例fig = plt.figure()#step 2#Figure实例创建一个两行一列的绘图区，并同时在第一个位置创建了一个subplotax = fig.add_subplot(2,1,1)#2rows,one column,first plot#step 3#用Axes实例方法画一

2021-09-19 23:51:45 247

原创数据可视化打卡Task01

知识点总结绘图实例简单折线图#导入第三方库import matplotlib.pyplot as pltimport numpy as np#第一种方法fig,ax = plt.subplots()#创建一个包含一个axes的figureax.plot([1,2,3,4],[1,4,2,3]); #绘制图像#第二种方法line = plt.plot([1,2,3,4],[1,4,2,3])两种绘图接口#第一种绘图接口x = np.linspace(0,2,100)fig,

2021-09-14 23:52:39 165

原创 MYSQL习题

Day11.1编写一条 CREATE TABLE 语句，用来创建一个包含表 1-A 中所列各项的表 Addressbook （地址簿），并为 regist_no （注册编号）列设置主键约束表1-A　表 Addressbook （地址簿）中的列。CREATE TABLE Addressbook(regist_no INTEGER NOT NULL ,name VARCHAR(128) NOT NULL ,address VARCHAR(256) NOT NULL ,tel_no CHAR(1

2021-08-18 00:13:40 980

原创动手学数据分析 Task05--数据建模&测评

数据建模选择模型sklearn选择算法选择路径图：任务一切割训练集和测试集from sklearn.model_selection import train_test_split# 一般先取出X和y后再切割，有些情况会使用到未切割的，这时候X和y就可以用,x是清洗好的数据，y是我们要预测的存活数据'Survived'X = datay = train['Survived']# 对数据集进行切割X_train, X_test, y_train, y_test = train_test

2021-06-23 23:38:43 184

原创动手学数据分析 Task04--数据可视化

任务一常见的可视化图：折线图、柱形图、扇形图。任务二#泰坦尼克号男女生存人数分布可视化（柱形图）sex = text.groupby('Sex')['Survived'].sum()sex.plot.bar()plt.title('survived_count')plt.show()图像如下图所示，图像显示女性存活总人数比男性多。如要分析男女存活占比需要考虑乘客中男女各自的人数。任务三#男女生存人数比例图text.groupby(['Sex','Survived'])['Sur

2021-06-21 23:38:24 178

原创动手学数据分析 Task03--数据重构

合并数据contact方法#任务二list_up = [text_left_up,text_right_up]result_up = pd.concat(list_up,axis=1)#任务三list_down=[text_left_down,text_right_down]result_down = pd.concat(list_down,axis=1)result = pd.concat([result_up,result_down])result.head()DataF

2021-06-20 01:14:37 182

原创动手学数据分析 Task02--数据清洗及特征处理

缺失值观察与处理观察缺失值#方法1df.info()#方法2df.isnull().sum()处理缺失值#方法1df[df['列名']==None]=0#方法2df[df['列名'].isnull()]=0#方法3df[df['列名 '] == np.nan] = 0np.nan比None好用，因为数值列读取数据后，空缺值的数据类型为float64，用None一般索引不到。重复值观察与处理查看重复值df[df.duplicated()]处理重复值#整行有缺失值的清理

2021-06-18 01:08:43 217

原创动手学数据分析 Task01--数据载入及初步观察

1 读取文件可以使用绝对路径或相对路径读取（不再列举）pd.read_table读取数据逐块读取更换表头-观察后五行初步观察数据保存数据2 Pandas基础3 探索性数据分析

2021-06-16 00:59:28 177

原创 DataWhale动手学数据分析打卡

DAY1:DAY2:DAY3:

2021-06-16 00:15:44 213

原创 DW打卡-DAy1机器学习三大任务

机器学习导论有监督学习回归分类无监督学习

2021-03-16 01:13:02 317

原创 DataWhale组队Day5--前沿

任务主题作者关联（数据建模任务），对论文作者关系进行建模，统计最常出现的作者关系；构建作者关系图，挖掘作者关系。数据处理步骤论文第一作者与其他作者（论文非第一作者）构建图；使用图算法统计图中作者与其他作者的联系；社交网络分析图是复杂网络研究中的一个重要概念。Graph是用点和线来刻画离散事物集合中的每对事物间以某种方式相联系的数学模型。图类型无向图，忽略了两节点间边的方向。指有向图，考虑了边的有向性。多重无向图，即两个结点之间的边数多于一条，又允许顶点通过同一条边和自己关联。

2021-01-26 01:19:45 133

原创 DataWhale组队—前沿Task4

任务论文分类（数据建模任务），利用已有数据建模，对新论文进行类别分类；使用论文标题完成类别分类。思路1：TF-IDF+机器学习分类器直接使用TF-IDF对文本提取特征，使用分类器进行分类，分类器的选择上可以使用SVM、LR、XGboost等思路2：FastText FastText是入门款的词向量，利用Facebook提供的FastText工具，可以快速构建分类器思路3：WordVec+深度学习分类器WordVec是进阶款的词向量，并通过构建深度学习分类完成分类。深度学习分类的网络结构可以选

2021-01-23 00:42:03 180

原创 DataWhale组队DAY3前沿

任务论文代码统计，统计所有论文出现代码的相关统计；使用正则表达式统计代码连接、页数和图表数据。数据处理步骤确定数据出现的位置；使用正则表达式完成匹配；完成相关的统计。正则表达式具体代码# 导入所需的packageimport seaborn as sns #用于画图from bs4 import BeautifulSoup #用于爬取arxiv的数据import re #用于正则表达式，匹配字符串的模式import requests #用于网络连接，发送网络请求，使用

2021-01-19 23:23:35 161

原创 DataWhale组队--前沿分析Day2

主题论文作者统计，统计所有论文作者出现评率Top10的姓名；数据处理字符串处var1 = 'Hello Datawhale!'var2 = "Python Everwhere!" print("var1[-10:]: ", var1[-10:])print("var2[1:5]: ", var2[0:7])数据读取# 导入所需的packageimport seaborn as sns #用于画图from bs4 import BeautifulSoup #用于爬取arxiv的数据

2021-01-16 23:50:33 152

原创 DataWhale组队数据分析 TASK 01-论文数据统计

1 任务主题论文数量统计，即统计2019年全年计算机各个方向论文数量。2 数据集2.1 数据集来源数据源2.2 数据集的格式id：arXiv ID，可用于访问论文；submitter：论文提交者；authors：论文作者；title：论文标题；comments：论文页数和图表等其他信息；journal-ref：论文发表的期刊的信息；doi：数字对象标识符，https://www.doi.org；report-no：报告编号；categories：论文在 arXiv 系统的所属

2021-01-13 22:15:38 311

原创 DataWhale SQL组队学习——综合练习

1.练习一: 各部门工资最高的员工（难度：中等）创建Employee 表，包含所有员工信息，每个员工有其对应的 Id, salary 和 department Id。创建Department 表，包含公司所有部门的信息。编写一个 SQL 查询，找出每个部门工资最高的员工。例如，根据上述给定的表格，Max 在 IT 部门有最高工资，Henry 在 Sales 部门有最高工资。练习二: 换座位（难度：中等）小美是一所中学的信息科技老师，她有一张 seat 座位表，平时用来储存学生名字和与他们

2020-12-28 23:35:56 238

原创 DataWhale SQL 组队Day5—窗口函数

1 知识点梳理1.1 窗口函数窗口函数的基本语法：--[ ] 中的内容可以省略<窗口函数> OVER ([PARTITION BY <列名>] ORDER BY <排序用列名>) 1.2 窗口函数的的应用1.2.1 基本语法--PRECEDING（“之前”），将框架指定为 “截止到之前 n 行”，加上自身行<窗口函数> OVER (ORDER BY &l

2020-12-23 22:30:30 234

原创 DataWhale组队 SQL—Day4集合运算

1 表的加减法1.1 知识点梳理**UNION*UNION 对两个查询结果取并集, 和在一个查询中使用 WHERE 子句, 然后使用 OR 谓词连接两个查询条件, 能够得到相同的结果。UNION用法和OR很像，但有些情况必须用到它：将两个不同的表中的结果合并在一起；-对同一张表，有时会出于查询效率方面的因素使用 UNION.UNION ALL：包含重复行的集合运算bag 模型与 set 模型隐式类型转换1.2 练习题1.1找出 product 和 product2 中售价高于

2020-12-22 21:39:38 331

原创 DataWhale SQL组队Day3-复杂一点的查询

1 视图1.1 知识点总结1.2 语句--创建视图CREATE VIEW <视图名称>(<列名1>,<列名2>,...) AS <SELECT语句>--修改视图ALTER VIEW <视图名> AS <SELECT语句>--更新视图UPDATE 视图名 SET 更新后的值 WHERE 选择更新的列; --只能修改透过窗口能看到的内容，创建视图时尽量使用限制不允许通过视图来修改表。 --删除视图 DRO

2020-12-19 18:16:47 801 1

原创 DataWhale组队SQL组队学习连接汇总

DAY2:https://blog.csdn.net/Shirley_L77/article/details/111240425DAY1:https://blog.csdn.net/Shirley_L77/article/details/111178026DAY0:https://blog.csdn.net/Shirley_L77/article/details/111148054

2020-12-17 23:11:25 267

原创 DataWhale SQL组队Day2-基础查询与排序

1 SELECT语句基础1.1 SELECT语句从表中只选择必要的数据。通过该语句查询并选取出必要数据的过程称为匹配查询或查询（query）。基本语句：SELECT <列名>， FROM <表名>；1.2 WHERE从表中选出符合条件的数据。基本语句：SELECT <列名>，…… FROM <表名> WHERE <条件表达式>；1.3 相关法则星号（*）代表全部列；SQL中可以随意使用换行符，但不可插入

2020-12-16 18:22:04 755 2

原创 DataWhale SQL组队 Day1-数据库初识

1 数据库基础相关概念数据库（Database,DB):将大量数据保存起来，通过计算机加工而成的可以进行高效访问的数据集合。数据库管理系统（Database Management System，DBMS):用来管理数据库的计算机系统。DBMS2 SQL2.1 SQL语句数据库中存储的表结构类似于excel中的行和列。在数据库中，行称为记录，相当于一条记录；列称为字段，代表了表中存储的数据项目。行和列交汇的地方称为单元格。DDL：创建/删除数据库及数据库中的对象2.2 SQL

2020-12-14 22:20:28 1536 6

原创 Datawhale SQL组队Day0-Win10 MySQL8.0.21安装

版本8.0.21遇到的问题：路径选择mysql the selected path already exist卸载不干净：重装MYSQL的时候发现要输入current root password参考：https://blog.csdn.net/baidu_38290612/article/details/79782350

2020-12-14 14:18:31 737

原创变形

import numpy as npimport pandas as pddf = pd.read_csv('data/table.csv')df.head()一、透视表pivot一般状态下，数据在DataFrame会以压缩（stacked）状态存放，例如上面的Gender，两个类别被叠在一列中，pivot函数可将某一列作为新的cols：df.pivot(index='ID',...

2020-04-28 23:04:36 202 1

原创分组

一、SAC过程内涵:SAC指的是分组操作中的split-apply-combine过程其中split指基于某一些规则，将数据拆成若干组，apply是指对每一组独立地使用函数，combine指将每一组的结果组合成某一类数据结构;\apply过程在该过程中，我们实际往往会遇到四类问题：整合（Aggregation）——即分组计算统计量（如求均值、求每组元素个数）变换（Transformat...

2020-04-26 23:08:55 287

原创 Pandas索引

import numpy as npimport pandas as pddf = pd.read_csv('data/table.csv',index_col='ID')df.head()**一、单级索引1. loc方法、iloc方法、[]操作符** 最常用的索引方法可能就是这三类，其中iloc表示位置索引，loc表示标签索引，[]也具有很大的便利性，各有特点（a）loc方法...

2020-04-23 22:54:42 325

原创 Pandas基础

导入所需模块import pandas as pdimport numpy as np查看Pandas版本pd.__version__一、文件读取与写入读取（a）csv格式df = pd.read_csv('data/table.csv')df.head()(b)txt格式df_txt = pd.read_table('data/table.txt') #可设置se...

2020-04-20 23:38:55 178

Shirley_L77的博客