![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
笔记
Smile_L77
这个作者很懒,什么都没留下…
展开
-
吃瓜学习DAY1
西瓜书+南瓜书学习笔记原创 2022-11-16 00:44:48 · 120 阅读 · 0 评论 -
SQL练习题
练习题原创 2022-09-27 22:36:08 · 131 阅读 · 0 评论 -
文件自动化与邮件处理
原创 2021-11-19 21:27:43 · 591 阅读 · 0 评论 -
数据可视化Day3
1 子图使用 plt.subplots 绘制均匀状态下的子图返回元素:画布和子图构成的列表,两个数字分别为行和列。figsize 参数可以指定整个画布的大小sharex 和 sharey 分别表示是否共享横轴和纵轴刻度tight_layout 函数可以调整子图的相对大小使字符不会重叠fig, axs = plt.subplots(2, 5, figsize=(10, 4), sharex=True, sharey=True)fig.suptitle('样例1', size=原创 2021-09-22 00:21:32 · 96 阅读 · 0 评论 -
数据可视化Day2
1 概述import matplotlib.pyplot as pltimport numpy as np#step1#用matplotlib.pyplot.figure()创建一个Figure个例fig = plt.figure()#step 2#Figure实例创建一个两行一列的绘图区,并同时在第一个位置创建了一个subplotax = fig.add_subplot(2,1,1)#2rows,one column,first plot#step 3#用Axes实例方法画一原创 2021-09-19 23:51:45 · 138 阅读 · 0 评论 -
数据可视化打卡Task01
知识点总结绘图实例简单折线图#导入第三方库import matplotlib.pyplot as pltimport numpy as np#第一种方法fig,ax = plt.subplots()#创建一个包含一个axes的figureax.plot([1,2,3,4],[1,4,2,3]); #绘制图像#第二种方法line = plt.plot([1,2,3,4],[1,4,2,3])两种绘图接口#第一种绘图接口x = np.linspace(0,2,100)fig,原创 2021-09-14 23:52:39 · 83 阅读 · 0 评论 -
MYSQL习题
Day11.1编写一条 CREATE TABLE 语句,用来创建一个包含表 1-A 中所列各项的表 Addressbook (地址簿),并为 regist_no (注册编号)列设置主键约束表1-A 表 Addressbook (地址簿)中的列。CREATE TABLE Addressbook(regist_no INTEGER NOT NULL ,name VARCHAR(128) NOT NULL ,address VARCHAR(256) NOT NULL ,tel_no CHAR(1原创 2021-08-18 00:13:40 · 740 阅读 · 0 评论 -
动手学数据分析 Task05--数据建模&测评
数据建模选择模型sklearn选择算法选择路径图:任务一 切割训练集和测试集from sklearn.model_selection import train_test_split# 一般先取出X和y后再切割,有些情况会使用到未切割的,这时候X和y就可以用,x是清洗好的数据,y是我们要预测的存活数据'Survived'X = datay = train['Survived']# 对数据集进行切割X_train, X_test, y_train, y_test = train_test原创 2021-06-23 23:38:43 · 83 阅读 · 0 评论 -
动手学数据分析 Task04--数据可视化
任务一常见的可视化图:折线图、柱形图、扇形图。任务二#泰坦尼克号男女生存人数分布可视化(柱形图)sex = text.groupby('Sex')['Survived'].sum()sex.plot.bar()plt.title('survived_count')plt.show()图像如下图所示,图像显示女性存活总人数比男性多。如要分析男女存活占比需要考虑乘客中男女各自的人数。任务三#男女生存人数比例图text.groupby(['Sex','Survived'])['Sur原创 2021-06-21 23:38:24 · 93 阅读 · 0 评论 -
动手学数据分析 Task03--数据重构
合并数据contact方法#任务二list_up = [text_left_up,text_right_up]result_up = pd.concat(list_up,axis=1)#任务三list_down=[text_left_down,text_right_down]result_down = pd.concat(list_down,axis=1)result = pd.concat([result_up,result_down])result.head()DataF原创 2021-06-20 01:14:37 · 63 阅读 · 0 评论 -
动手学数据分析 Task02--数据清洗及特征处理
缺失值观察与处理观察缺失值#方法1df.info()#方法2df.isnull().sum()处理缺失值#方法1df[df['列名']==None]=0#方法2df[df['列名'].isnull()]=0#方法3df[df['列名 '] == np.nan] = 0np.nan比None好用,因为数值列读取数据后,空缺值的数据类型为float64,用None一般索引不到。重复值观察与处理查看重复值df[df.duplicated()]处理重复值#整行有缺失值的清理原创 2021-06-18 01:08:43 · 125 阅读 · 0 评论 -
动手学数据分析 Task01--数据载入及初步观察
1 读取文件可以使用绝对路径或相对路径读取(不再列举)pd.read_table读取数据逐块读取更换表头-观察后五行初步观察数据保存数据2 Pandas基础3 探索性数据分析原创 2021-06-16 00:59:28 · 97 阅读 · 0 评论 -
DataWhale动手学数据分析打卡
DAY1:DAY2:DAY3:原创 2021-06-16 00:15:44 · 109 阅读 · 0 评论 -
DW打卡-DAy1机器学习三大任务
机器学习导论有监督学习回归分类无监督学习原创 2021-03-16 01:13:02 · 192 阅读 · 0 评论 -
DataWhale组队Day5--前沿
任务主题作者关联(数据建模任务),对论文作者关系进行建模,统计最常出现的作者关系;构建作者关系图,挖掘作者关系。数据处理步骤论文第一作者与其他作者(论文非第一作者)构建图;使用图算法统计图中作者与其他作者的联系;社交网络分析图是复杂网络研究中的一个重要概念。Graph是用点和线来刻画离散事物集合中的每对事物间以某种方式相联系的数学模型。图类型无向图,忽略了两节点间边的方向。指有向图,考虑了边的有向性。多重无向图,即两个结点之间的边数多于一条,又允许顶点通过同一条边和自己关联。原创 2021-01-26 01:19:45 · 57 阅读 · 0 评论 -
DataWhale组队—前沿Task4
任务论文分类(数据建模任务),利用已有数据建模,对新论文进行类别分类;使用论文标题完成类别分类。思路1:TF-IDF+机器学习分类器直接使用TF-IDF对文本提取特征,使用分类器进行分类,分类器的选择上可以使用SVM、LR、XGboost等思路2:FastText FastText是入门款的词向量,利用Facebook提供的FastText工具,可以快速构建分类器思路3:WordVec+深度学习分类器WordVec是进阶款的词向量,并通过构建深度学习分类完成分类。深度学习分类的网络结构可以选原创 2021-01-23 00:42:03 · 95 阅读 · 0 评论 -
DataWhale组队DAY3前沿
任务论文代码统计,统计所有论文出现代码的相关统计;使用正则表达式统计代码连接、页数和图表数据。数据处理步骤确定数据出现的位置;使用正则表达式完成匹配;完成相关的统计。正则表达式具体代码# 导入所需的packageimport seaborn as sns #用于画图from bs4 import BeautifulSoup #用于爬取arxiv的数据import re #用于正则表达式,匹配字符串的模式import requests #用于网络连接,发送网络请求,使用原创 2021-01-19 23:23:35 · 74 阅读 · 0 评论 -
DataWhale组队--前沿分析Day2
主题论文作者统计,统计所有论文作者出现评率Top10的姓名;数据处理字符串处var1 = 'Hello Datawhale!'var2 = "Python Everwhere!" print("var1[-10:]: ", var1[-10:])print("var2[1:5]: ", var2[0:7])数据读取# 导入所需的packageimport seaborn as sns #用于画图from bs4 import BeautifulSoup #用于爬取arxiv的数据原创 2021-01-16 23:50:33 · 66 阅读 · 0 评论 -
变形
import numpy as npimport pandas as pddf = pd.read_csv('data/table.csv')df.head()一、透视表pivot一般状态下,数据在DataFrame会以压缩(stacked)状态存放,例如上面的Gender,两个类别被叠在一列中,pivot函数可将某一列作为新的cols:df.pivot(index='ID',...原创 2020-04-28 23:04:36 · 116 阅读 · 1 评论 -
分组
一、SAC过程内涵:SAC指的是分组操作中的split-apply-combine过程其中split指基于某一些规则,将数据拆成若干组,apply是指对每一组独立地使用函数,combine指将每一组的结果组合成某一类数据结构;\apply过程在该过程中,我们实际往往会遇到四类问题:整合(Aggregation)——即分组计算统计量(如求均值、求每组元素个数)变换(Transformat...原创 2020-04-26 23:08:55 · 215 阅读 · 0 评论 -
Pandas索引
import numpy as npimport pandas as pddf = pd.read_csv('data/table.csv',index_col='ID')df.head()**一、单级索引1. loc方法、iloc方法、[]操作符** 最常用的索引方法可能就是这三类,其中iloc表示位置索引,loc表示标签索引,[]也具有很大的便利性,各有特点(a)loc方法...原创 2020-04-23 22:54:42 · 253 阅读 · 0 评论