自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

疯子书生的博客

一个数据分析挖掘师的笔记

  • 博客(85)
  • 问答 (1)
  • 收藏
  • 关注

原创 吐槽一下typora

用typora记笔记已经很久了,从使用上来说搭配图床记笔记无可挑剔,但是有一些问题确实很烦;大概有以下几点:首先是图床上传的问题(当然了,这个也不仅仅是typora的问题),我一直用的图床是picgo+gitee,设置的是自动上传的模式。有时候会出现上传错误,或者乱七八糟的错误,导致图片不能正常显示,曾经一度让我重写了文档。但是经过多方面的查错,还有各种解决办法:(1)是picgo的版本的问题,一般来说安装个比较稳定的版本,也有说安装最新版,这个应该是有一定影响,最常见的就是load failed

2022-05-04 16:18:25 868 1

原创 数据结构——第六章 图

[知识框架]主要掌握深度优先搜索和广度优先搜索,图的基本概念及基本性质、图的存储结构(邻接矩阵、邻接表、邻接多重表和十字链表)及其特性、存储结构之间的转化、基于存储结构上的遍历操作和各种应用(拓扑排序、最小生成树、最短路径和关键路径)等。通常要求掌握基本思想和实现步骤(手动模拟)。6.1 图的基本概念6.1.1 图的定义图 GGG 由顶点集 VVV 和边集 EEE 组成,记为 G=(V,E)G=(V, E)G=(V,E) 。其中 V(G)V(G)V(G) 表示图 GGG 中顶点的有限非空集;E

2021-10-02 08:29:51 695

原创 数据结构——第五章树(详细知识点总结)

【知识框架】5.1 树的基本概念5.1.1 树的定义树是n(n>=0)个节点的有限集。当n=0时,称为空树。在任意一棵非空树中应满足:有且仅有一个特定的称为根(Root)的结点。当n>1时,其余结点可分为m(m>0)个互不相交的有限集T1,T2,…Tm,其中每个集合本身又是一棵树,并称为根的子树(SubTree)。显然,树的定义是递归的,即在树的定义中又用到了其自身,树是一种递归的数据结构。树作为一种逻辑结构,同时也是一种分层结构,有以下两个特点:树的根结点没有前

2021-10-01 08:39:28 1829

原创 一元函数微分学和一元函数积分学的应用

2021-09-29 15:35:20 464

原创 常微分方程

2021-09-22 21:45:46 136

原创 二重积分

2021-09-19 17:25:43 113

原创 多元函数微分学

2021-09-15 14:17:53 96

原创 一元函数积分学的概念与计算

2021-09-08 20:03:42 259

原创 中值定理

2021-09-01 16:05:44 122

原创 一元函数微分学的几何应用

极值与最值单调性与极值的判别凹凸性定义凹凸性于拐点判别渐近线函数作图

2021-08-28 16:09:53 193

原创 一元函数微分学概念与计算

2021-08-25 20:23:05 587

原创 数列极限定义及性质

数列极限数列极限存在的条件,尤其是子列极限存在,是不能证明数列极限存在的,但是数列收敛,子列也收敛是可以相互转化的。

2021-08-20 14:44:31 624

原创 函数极限与连续

主要根据张宇30讲为主,对于一些定义,采用了汤家凤的,比较更容易通俗易懂。同时总结了一些重要结论以及相关定义的推论及证明。函数极限性质函数极限-邻域函数极限-定义泰勒公式函数极限性质函数极限运算规则夹逼准则、洛必达法则无穷小比阶无穷小运算规则无穷小比阶函数连续与间断间断点定义及分类...

2021-08-18 21:31:00 407

原创 数据结构第四章——串(详细总结)

知识框架:4.2 串的定义和实现字符串简称串,计算机上非数值处理的对象基本都是字符串数据。常见的信息检索系统 (如搜索引擎 )、文本编辑程序(如 Word 、问答系统、自然语言翻译系统等,都是以字符串数据作为处理对象的。4.1.1 串的定义串(string)是由菱格或多个字符组成的有限序列。一般记为:S=‘a1a2···an’ (n>=0)S为串名,单引号括起来的字符序列是串的值。ai可以是字母、数字或其他字符。串中字符的个数n称为串的长度。n=0的串称为空串(

2021-07-13 10:22:17 3035 1

原创 数据结构-第三章 栈和队列

第三章 栈和队列【内容】(一)栈和队列的基本概念(二)栈和队列的顺序存储结构(三)栈和队列的链式存储结构(四)栈和队列的应用(五)特殊矩阵的压缩存储【知识框架】3.1 栈的定义3.1.1 栈的基本概念栈的定义栈(stack)是只允许在一端进行插入和删除操作的线性表。首先栈是一种线性表,限定这种线性表只能在某一端进行插入和删除操作。栈顶(Top):线性表允许进行插入删除的那一端。栈底(Bottom):固定的,不允许进行插入和删除的一端。空栈:不含任何元素的空表。栈又称为后

2021-06-01 20:28:29 1534

转载 机器学习-模型性能评估及调参

目录1.使用网格搜索进行超参数调优2.随机网格搜索RandomizedSearchCV()3.乳腺癌数据集3.1 绘制ROC曲线4.基于svm的人脸识别4.1 实例5. 参考文章以鸢尾花卉数据集为例import pandas as pdfrom sklearn import datasetsiris = datasets.load_iris()X = iris.datay = iris.targetfeature = iris.feature_namesdata = pd.DataFram

2021-03-29 15:04:46 616

转载 心电图心跳信号多分类预测-建模调参(四)

1.相关模型及调参方法1.1 相关模型介绍逻辑回归模型https://blog.csdn.net/han_xiaoyang/article/details/49123419 决策树模型https://blog.csdn.net/c406495762/article/details/76262487 GBDT模型https://zhuanlan.zhihu.com/p/45145899 XGBoost模型https://blog.csdn.net/wuzhongqi

2021-03-29 14:14:32 961

转载 心电图心跳信号多分类预测-模型融合(五)

目录模型融合介绍本赛题代码实现划分训练集和校验集单模函数加权融合Stacking融合Blending模型融合介绍融合多个不同的模型会提升机器学习准确率。一般在比赛中都很常见。一般来说模型融合有以下几种方式:1.简单加权融合:回归(分类概率):算术平均融合(Arithmetic mean),几何平均融合(Geometric mean);分类:投票(Voting)综合:排序融合(Rank averaging),log融合2.stacking/blending:构建多层模型,并利用预测结果

2021-03-29 14:12:54 912

原创 机器学习-基本分类模型

目录1.收集数据集并选择合适的特征2. 选择度量模型性能的指标3. 选择具体的模型并进行训练3.1 逻辑回归logistic regression3.2 基于概率的分类模型3.2.1 线性判别分析3.2.2 降维分类的思想理解线性判别分析3.3 朴素贝叶斯3.3.1 相关模型代码实例3.4 决策树3.4.1 代码实例3.5 支持向量机3.6 非线性支持向量机3.6.1 代码实例1.收集数据集并选择合适的特征在数据集上我们使用IRIS鸢尾花数据集。from sklearn import datas

2021-03-27 20:31:43 962

原创 机器学习-回归模型评估及参数调优

目录1.参数与超参数2.调参2.1 网格搜索GridSearchCV()2.2 随机搜索对模型超参数进行调优1.参数与超参数参数:最小二乘法或者梯度下降法等最优化算法优化出来的数。超参数:无法用最小二乘法或者梯度下降法等最优化算法优化出来的数。简单来说,模型参数就是模型内部的配置变量,可以用数据估计它的值。模型参数一般具有以下特征:进行预测时需要参数。它参数定义了可使用的模型。参数是从数据估计或获悉的。参数通常不由编程者手动设置。参数通常被保存为学习模型的一部分。

2021-03-24 19:33:13 2705

原创 机器学习-偏差与方差

目录1.偏差与方差1.1 方差1.2 偏差2. 偏差-方差权衡3. 特征提取3.1训练误差修正3.2 交叉验证4. 压缩估计(正则化)4.1 岭回归实例4.2 Lasso实例5.降维5.1 主成分分析(PCA)1.偏差与方差Bias和Variance是针对Generalization来说的。在机器学习中,我们用训练数据集去训练一个模型,一般是定义一个误差函数,通过将这个Loss的最小化过程,来提高模型的性能。单纯地将训练数据集的loss最小化,并不能保证在解决更一般的问题时模型仍然是最优这个训练数据

2021-03-22 19:50:14 731

原创 机器学习(二)-回归模型

目录1.使用sklearn构建完整的回归项目1.1 线性回归模型1.2 最小二乘法2.1多项式回归2.1.1 多项式回归实例2.2 GAM模型实例2.3 sklearn使用回归树实例2.4 支持向量机回归(SVR)1.使用sklearn构建完整的回归项目(1)收集数据集并选择合适的特征,在数据集使用相对较熟悉的Boston房价数据集,会节省时间在数据处理花费较多时间。import pandas as pdfrom sklearn import datasetsboston = datasets.

2021-03-22 17:25:37 235

原创 心电图心跳信号多分类预测-特征提取(三)

目录1.时间序列数据特征预处理1.1 代码示例1.1.1. 导入包1.1.2 数据预处理1.1.3 使用 tsfresh 进行时间序列特征处理1.时间序列数据特征预处理1.1 代码示例1.1.1. 导入包# 包导入import pandas as pdimport numpy as npimport tsfresh as tsffrom tsfresh import extract_features, select_featuresfrom tsfresh.utilities.datafr

2021-03-22 13:59:32 3074 3

原创 心电图心跳信号多分类预测-EDA(二)

数据分析赛题:心电图心跳信号多分类预测2.1 EDA 目标EDA的价值主要在于熟悉数据集,了解数据集,对数据集进行验证来确定所获得数据集可以用于接下来的机器学习或者深度学习使用。当了解了数据集之后我们下一步就是要去了解变量间的相互关系以及变量与预测值之间的存在关系。引导数据科学从业者进行数据处理以及特征工程的步骤,使数据集的结构和特征集让接下来的预测问题更加可靠。2.2 内容介绍载入各种数据科学以及可视化库:数据科学库 pandas、numpy、scipy;可视化库 matplot

2021-03-16 17:00:33 846 1

原创 机器学习基础

目录1.导论1.1 回归1.2 分类1.3 无监督学习1.导论什么是机器学习?根据西瓜书给出的定义,机器学习研究的主要内容,是关于在计算机上从数据中产生“模型”的算法,即学习算法。机器学习的一个重要的目标就是利用数学模型来理解数据,发现数据中的规律,用作数据的分析和预测。数据通常由一组向量组成,这组向量中的每个向量都是一个样本,我们用xix_ixi​来表示一个样本,其中i=1,2,3,...,Ni=1,2,3,...,Ni=1,2,3,...,N,共N个样本,每个样本xi=(xi1,xi2,...,

2021-03-15 19:35:38 120

原创 心电图心跳信号多分类预测(一)

目录1.赛题理解1.1赛题概况1.2数据概况1.3代码示例1.3.1数据读取1.3.2分类指标计算示例2.baseline2.1 导入第三方包2.2 读取数据2.3.数据预处理2.4.训练数据/测试数据准备2.5.模型训练2.6.预测结果1.赛题理解Tip:心电图心跳信号多分类预测挑战赛。2016年6月,国务院办公厅印发《国务院办公厅关于促进和规范健康医疗大数据应用发展的指导意见》,文件指出健康医疗大数据应用发展将带来健康医疗模式的深刻变化,有利于提升健康医疗服务效率和质量。赛题以心电图数据为背景,

2021-03-15 16:57:35 4188 2

原创 DCIC-早高峰共享单车潮汐点的群智优化(1)

目录学习主题赛题说明赛题任务代码学习主题:比赛链接: https://data.xm.gov.cn/contest-series-api/promote/register/3/UrnA69nb.赛题说明共享单车,延伸了城市公共交通脉络,解决了市民出行“最后一公里”问题。然而,随着共享经济模式被越来越多市民接受,成为出行习惯,潮汐现象也随之出现。白天工作、晚上休息的人类活动规律的客观存在,加之上下班时间段的集中,导致早晚高峰“一车难寻”、“无地可停”的供需矛盾。本题希望通过对车辆数据的综合分析,对厦

2021-02-19 17:59:45 1382 3

原创 异常检测——高维数据异常检测

异常检测——高维数据异常检测主要内容包括:Feature Bagging孤立森林文章目录异常检测——高维数据异常检测1、引言2、Feature Bagging3、Isolation Forests4、总结5、练习6、参考文献1、引言在实际场景中,很多数据集都是多维度的。随着维度的增加,数据空间的大小(体积)会以指数级别增长,使数据变得稀疏,这便是维度诅咒的难题。维度诅咒不止给异常检测带来了挑战,对距离的计算,聚类都带来了难题。例如基于邻近度的方法是在所有维度使用距离函数来定义局部性,但是

2021-01-24 18:04:56 3385 1

原创 数据分析---arXiv作者信息关联

作者信息关联5.1 说明主题:作者关联(数据建模任务),对论文作者关系进行建模,统计最常出现的作者关系;内容:构建作者关系图,挖掘作者关系5.2 数据处理步骤将作者列表进行处理,并完成统计。具体步骤如下:将论文第一作者与其他作者(论文非第一作者)构建图;使用图算法统计图中作者与其他作者的联系;5.3 社交网络分析图是复杂网络研究中的一个重要概念。Graph是用点和线来刻画离散事物集合中的每对事物间以某种方式相联系的数学模型。Graph在现实世界中随处可见,如交通运输图、旅游图、流程

2021-01-24 17:49:27 408

原创 异常检测---基于相似度的方法

异常检测——基于相似度的方法主要内容包括:基于距离的度量基于密度的度量文章目录异常检测——基于相似度的方法1、概述2、基于距离的度量2.1 基于单元的方法2.2 基于索引的方法3、基于密度的度量3.1 k-距离(k-distance ( p) ):3.2 k-邻域(k-distance neighborhood):3.3 可达距离(reachability distance):3.4 局部可达密度(local reachability density):3.5 局部异常因子:4、练习参考资料:

2021-01-21 19:19:51 460

原创 数据分析---arXiv论文种类分类

论文种类分类4.1 任务说明主题:论文分类(数据建模任务),利用已有数据建模,对新论文进行类别分类;内容:使用论文标题完成类别分类;4.2 数据处理步骤在原始arxiv论文中论文都有对应的类别,而论文类别是作者填写的。在本次任务中可以借助论文的标题和摘要完成:对论文标题和摘要进行处理;对论文类别进行处理;构建文本分类模型;4.3 文本分类思路思路1:TF-IDF+机器学习分类器直接使用TF-IDF对文本提取特征,使用分类器进行分类,分类器的选择上可以使用SVM、LR、XGb

2021-01-21 11:22:28 1709 2

原创 异常检测——线性模型

文章目录1、引言2、数据可视化3、线性回归3.1 基于自变量与因变量的线性回归3.1.1 最小二乘法3.1.2 梯度下降法3.2 基于异常检测的线性回归4、主成分分析4.1 原理推导4.2 归一化问题5、回归分析的局限性6、总结7、资料8、练习参考文献1、引言  真实数据集中不同维度的数据通常具有高度的相关性,这是因为不同的属性往往是由相同的基础过程以密切相关的方式产生的。在古典统计学中,这被称为——回归建模,一种参数化的相关性分析。  一类相关性分析试图通过其他变量预测单独的属性值,另一类方法用一

2021-01-18 17:33:53 306

原创 数据分析---arXiv论文代码统计

论文代码统计目录论文代码统计3.1 说明3.2 数据处理步骤3.3 正则表达式3.3.1 普通字符:大写和小写字母、所有数字、所有标点符号和一些其他符号3.3.2 特殊字符:有特殊含义的字符3.3.3 限定符3.4 具体代码实现以及讲解3.1 说明主题:论文代码统计,统计所有论文出现代码的相关统计;内容:使用正则表达式统计代码连接、页数和图表数据;3.2 数据处理步骤在原始arxiv数据集中作者经常会在论文的comments或abstract字段中给出具体的代码链接,所以我们需要从这些字段里

2021-01-16 15:42:19 845

原创 nlp---Neo4j 图数据库查询

Neo4j 图数据库查询目录目录一、 Neo4介绍二、 Neo4j 介绍3.1 Cypher 介绍3.2 Neo4j 图数据库 查询四、 基于知识图谱的问题系统 主体类 AnswerSearching 框架介绍五、 代码分模块介绍参考资料一、 Neo4介绍Neo4j是一个世界领先的开源图形数据库,由Java编写。图形数据库也就意味着它的数据并非保存在表或集合中,而是保存为节点以及节点之间的关系;Neo4j的数据由下面3部分构成:节点边和属性;Neo4j除了顶点(Node

2021-01-16 14:55:20 1705

原创 nlp---用户输入->知识库的查询语句

用户输入->知识库的查询语句目录一、引言二、什么是问答系统?2.1 问答系统简介2.2 Query理解2.2.1 Query理解介绍2.2.2 意图识别2.2.3 槽值填充三、任务实践四、 主体类 EntityExtractor 框架介绍五、命名实体识别任务实践5.1 命名实体识别整体思路介绍5.2 结合代码介绍5.2.1 构建 AC Tree5.2.2 使用AC Tree进行问句过滤5.2.3 使用 相似度进行实体匹配六、意图识别任

2021-01-15 13:39:35 416

原创 数据分析---arXiv论文作者统计

任务2:论文作者统计2.1 任务说明任务主题:论文作者统计,统计所有论文作者出现评率Top10的姓名;任务内容:论文作者的统计、使用 Pandas 读取数据并使用字符串操作;2.2 数据处理步骤在原始arxiv数据集中论文作者authors字段是一个字符串格式,其中每个作者使用逗号进行分隔分,所以我们首先需要完成以下步骤:使用逗号对作者进行切分;剔除单个作者中非常规的字符;具体操作可以参考以下例子:C. Bal\\'azs, E. L. Berger, P. M. Nadolsky

2021-01-15 13:26:59 331

原创 数据挖掘概念与技术第一章

2021-01-14 09:46:27 152

原创 nlp---Neo4j图数据库导入数据

Neo4j图数据库导入数据目录一、引言二、Neo4j简介2.1 基本概念2.2 索引2.3 Neo4j的优势2.4 环境部署2.4.1 运行环境2.4.2 neo4j安装及使用三、Neo4j 数据导入3.1 数据集简介3.2 数据导入3.2.1 Neo4j 账号密码设置3.2.2 导入 数据3.3 知识图谱展示3.4 主体类 MedicalGraph 介绍3.5 主体类 MedicalGraph 中关键代码讲解四、总结参考资料一、引言在计

2021-01-13 10:03:21 700

原创 nlp---基于医疗知识图谱的问答系统操作介绍

基于医疗知识图谱的问答系统操作介绍目录目录一、引言二、运行环境三、搭建知识图谱四、启动问答测试参考资料一、引言该项目主要分为两部分:第一部分:搭建知识图谱。第二部分:启动问答测试。构建一个简单的基于 知识图谱 的对话系统.二、运行环境python3.0及以上neo4j 3.5.0及以上jdk 1.8.0三、搭建知识图谱运行该过程,请确保已经安装好 neo4j 和 jdk运行 以下命令: python build_graph.py 注:由

2021-01-12 20:58:00 1604 2

原创 异常检测——基于统计学的方法

异常检测——基于统计学的方法主要内容:高斯分布箱线图文章目录异常检测——基于统计学的方法1、概述2、参数方法2.1 基于正态分布的一元异常点检测2.2 多元异常点检测2.2 多个特征相关,且符合多元高斯分布2.3.使用混合参数分布3、非参数方法4、HBOS5、总结6、练习参考资料1、概述统计学方法对数据的正常性做出假定。**它们假定正常的数据对象由一个统计模型产生,而不遵守该模型的数据是异常点。**统计学方法的有效性高度依赖于对给定数据所做的统计模型假定是否成立。异常检测的统计学方法的一般

2021-01-12 14:17:51 1237 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除