俱往矣`-CSDN博客

原创 ptecharts实现图谱可视化

ptecharts实现图谱可视化图片样例如下：import asynciofrom aiohttp import TCPConnector, ClientSessionimport pyecharts.options as optsfrom pyecharts.charts import Graphimport nest_asyncionest_asyncio.apply()async def get_json_data(url: str) -> dict: async wi

2022-04-08 15:00:46 1023

原创知识图谱可视化——《间客》人物关系

知识图谱可视化——《间客》人物关系借鉴echarts的《间客》人物关系案例完成了知识图谱可视化。存在疑问是：1、如何将图谱可视化体现业务价值？2、如何结合QA问答交互，同步更新可视化内容以实现问答系统实时可视化呢？代码参考如下：// 基于准备好的dom，初始化echarts实例var myChart = echarts.init(document.getElementById('main'));// 指定图表的配置项和数据option = { tooltip: { show:

2022-04-07 22:15:07 3247

原创朴素贝叶斯分类——【torch学习笔记】

朴素贝叶斯分类引用翻译：《动手学深度学习》在我们担心复杂的优化算法或GPU之前，我们已经可以部署我们的第一个分类器，只依靠简单的统计估计器和我们对条件独立性的理解。学习就是要做假设。如果我们想对一个从未见过的新数据点进行分类，我们就必须对哪些数据点是相互类似的做出一些假设。y^=argmaxy p(y∣x)\hat{y} = \text{argmax}_y \> p(y | \mathbf{x})y^=argmaxyp(y∣x)不幸的是，这要求我们对𝑝(𝑦|𝐱)的每个值𝐱=𝑥1,…,𝑥𝑑进

2022-04-07 21:20:49 2119

原创 AutoTokenizer自动加载BERT预训练模型

自动加载BERT预训练模型代码如下：from transformers import (AutoModelForMaskedLM, AutoTokenizer, LineByLineTextDataset, DataCollatorForLanguageModeling, Trainer, TrainingArguments)# 自动加载中文预训练

2022-03-23 14:50:14 2976

原创 AutoML—应用TPOT实现回归预测

TPOT是一种AutoML的工具，借助遗传算法来生成Pipeline代码。基于Python，建立在scikit-learn的基础上。**主要原理：**遗传算法进行特征、模型选择目的：实现对特征、模型、超参的优化，并生成主体代码只需要给定结构化的数据，自动的进行多模型比较调优，经过一定次数的迭代，会得到一个最优模型，框架会保留模型参数来构建一个pipelin.py，我们只需要在pipelin.py中微调数据传入的接口即可得到一个最优模型。

2022-03-10 14:29:22 2690

原创 catboost算法及参数说明

catboost回归catboost有一下三个的优点：它自动采用特殊的方式处理类别型特征（categorical features）。首先对categorical features做一些统计，计算某个类别特征（category）出现的频率，之后加上超参数，生成新的数值型特征（numerical features）。这也是我在这里介绍这个算法最大的motivtion，有了catboost，再也不用手动处理类别型特征了。catboost还使用了组合类别特征，可以利用到特征之间的联系，这极大的丰富了特征维

2022-03-09 17:40:01 3792 1

原创异常值检测常用算法及案例

异常值检测常用方法对历史数据进行异常值检测，对突发情况或者异常情况进行识别，避免因为异常值导致预测性能降低，并对其进行调整便于后续预测。一、3-sigma原则异常值检测3-Sigma原则又称为拉依达准则，该准则定义如下：假设一组检测数据只含有随机误差，对原始数据进行计算处理得到标准差，然后按一定的概率确定一个区间，认为误差超过这个区间的就属于异常值。如果数据服从正态分布，异常值被定义为一组测定值中与平均值的偏差超过3倍的值 → p(|x - μ| > 3σ) ≤ 0.003。样例如下：对

2022-03-08 22:25:18 15774 1

原创解决学习率的常见问题

学习率常见问题1、什么是学习率？它的用途是什么？2、学习率是否为负值？3、梯度学习率选择错误的问题是什么？4、错误的权重学习率有什么问题？5、如何调整学习率6、如何快速确定合适学习率意义：如果学习率太低，网络需要终其一生来学习了。但是如果太高，每一步将完美跳过最低点，永远也得不到一个较好的loss。更严重的是会出现loss不断增加直到nan。1、什么是学习率？它的用途是什么？神经网络计算其输入的加权和，并通过一个激活函数得到输出。为了获得准确的预测，一种称为梯度下降的学习算法会在从输出向输入后退的同

2022-01-04 20:13:45 1610

原创知识表示学习【知识图谱专栏】

知识表示学习一、知识图谱知识图谱是将现实世界的具象事物与抽象概念表示为实体，将实体间的联系表示为关系，并最终以（头实体、关系、尾实体）三元组为基本元素结构来表示知识。比如：（淘宝，从属于，阿里巴巴）（支付宝，从属于，阿里巴巴）1、符号定义：2、三元组表示的缺陷：计算效率低下。知识图谱的三元组符号表示需要图算法进行计算。这些图算法计算复杂度较高，在大规模知识图谱上难以快速运行，难以扩展至其他情况。数据稀疏性强。大规模知识图谱中的实体与关系存在长尾分布，有很多实体只存在着极少数

2021-12-26 12:18:29 3068

原创 Docker常用命令

Docker常用命令1、查看镜像2、把镜像实例化为容器查看容器状态启动容器停止容器删除容器3、进docker 容器4、docker 配置环境5、docker配置远程ssh连接①启动ssh服务6、文件传输①从容器拷贝到主机②从主机拷贝到容器③删除文件夹7、查看主机情况①查看GPU使用情况②查看主机储存使用情况8、查看自己相关的容器、命令9、运行程序后保存日志10、镜像文件（默认保存到当前路径）11、更名12、加载项目工程很多都需要在容器里运行，故需要配置一个自己的容器。1、查看镜像docker imag

2021-09-15 18:25:40 523

原创基于负荷曲线的聚类分析与预测

基于负荷曲线的聚类分析与预测数据预处理时间序列初步分析季节ARIMA模型(划分测试集训练集)聚类分析部分数据预处理# 安装库专用# 通过如下命令设定镜像options(repos = 'http://mirrors.ustc.edu.cn/CRAN/')# 查看镜像是否修改getOption('repos')# 尝试下载R包#若有需要，进行安装#install.packages('forecast')‘http://mirrors.ustc.edu.cn/CRAN/’#设置工作路径

2021-07-01 16:31:35 3350

原创工业产量分析与预测

工业产量分析与预测导入数据与数据概况数据描述统计时序数据进行分析尝试建立时间序列预测模型先对汽车进行分析试试灰色预测灰色预测汽车灰色预测天然气灰色预测钢材组合模型探索相关关系各省份进行聚类分析及可视化标准化后再聚类导入数据与数据概况# 安装库专用# 通过如下命令设定镜像options(repos = 'http://mirrors.ustc.edu.cn/CRAN/')# 查看镜像是否修改getOption('repos')# 尝试下载R包#若有需要，进行安装#install.packa

2021-07-01 16:11:59 1162 1

原创高发疾病分布特征分析

高发疾病分布特征分析仅列举三种高发疾病，对其患病者年龄分布、性别分布、危险因素等进行可视化以探究一些有趣的规律。高发疾病分布特征分析高发疾病分布特征分析一、数据可视化1.1 不同年龄病别总患病率1.2 不同疾病与危险因素关系二、省份高发疾病聚类分析地图可视化三、相关关系可视化四、时间序列预测（仅举个例）五、不同性别人口结构图一、数据可视化1.1 不同年龄病别总患病率# 安装库专用# 通过如下命令设定镜像options(repos = 'http://mirrors.ustc.edu.cn/C

2021-05-13 20:43:44 1514 6

原创科技主题基金数据分析

科技基金数据分析科技主题基金数据分析科技基金数据分析一、数据预处理二、基础分布描述性分析2.1 R平方与风险系数散点分布图3.2 探索相关性三、探索基金收益分布之间规律及其分布情况3.1 不同主题基金规模分布对比3.2 不同主题基金回报率分布3.3不同主题基金净值之间对比3.4 不同主题基金回报率分布3.5 近一年增长率分布情况3.8 不同投资类型的基金规模情况3.9 基金规模分布情况3.12 收益矩阵分布图四、基金风险分布可视化4.1 不同主题晨星风险系数之间对比4.2 风险分布矩阵图，验证风险评级是

2021-05-04 21:07:21 405

原创利用机器学习方法对猪肉价格预测

基于机器学习对猪肉价格预测猪肉价格预测问题背景导入数据一、支持向量机二、随机森林三、 MLP神经网络猪肉价格预测支持向量机回归随机森林回归MLP神经网络回归问题背景“猪粮安天下”，生猪自古以来便在国计民生中占据着重要地位，猪肉是我国城乡居民“菜篮子”中不可或缺的产品。但从 2018 年非洲猪瘟爆发以来,生猪产业遭到巨大冲击，生猪市场价格波动频繁，不仅给养殖者造成巨大的经济损失，也给广大消费者造成了很大困扰。2020 年新冠肺炎疫情突袭，再次对逐步恢复的生猪产业产生一定不利影响。（本文指标选

2021-04-22 20:31:16 3436 5

原创北京温度可视化实例(热力图可视化）

北京温度可视化实例# 安装库专用# 通过如下命令设定镜像options(repos = 'http://mirrors.ustc.edu.cn/CRAN/')# 查看镜像是否修改getOption('repos')# 尝试下载R包#若有需要，进行安装install.packages('beanplot')‘http://mirrors.ustc.edu.cn/CRAN/’Installing package into 'C:/Users/天涯过客/Documents/R/win-li

2021-04-12 11:58:26 997 3

原创电力预测模型（线性模型）

电力预测#加载对应的库import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsimport os#读取数据os.chdir("D:\\LengPY\\AI电力能耗预测")data = pd.read_csv('zhenjiang_power.csv') # 读取训练数据data_9 = pd.read_csv('zhenjiang_power_9.csv') #

2021-04-08 20:22:52 1562 1

原创电商平台用户退款预测模型（Python语言）

电商平台用户退款预测模型（Python语言）（…待改进）# 加载需要用到的包import pandas as pdimport numpy as npimport matplotlib.pyplot as plt%matplotlib inlineimport seaborn as snsplt.style.use('fivethirtyeight')from warnings import filterwarningsfilterwarnings('ignore')orders

2021-03-28 20:35:49 934 2

原创 R语言绘制树形图

R语言绘制树形图数据格式：> head(goodsstat) goodsID count_goods count_goods_back pay_goods451 PR000450 147 22 98399.32714 PR000713 148 34 123259.05756 PR000755 148 24 118296.08922 PR000921

2021-03-16 13:07:09 958

原创 R语言绘制日历热力图

R语言绘制日历热力图数据格式> data data3.payTime data3.payment1 2019-01-03 14:19:16 101.260002 2019-01-03 14:53:13 48.650003 2019-01-03 22:51:02 102.460004 2019-01-04 10:47:05 12.470005 2019-01-04 13:43:51 2398.690006

2021-03-16 13:02:07 2020

原创电商用户数据初等分析

利用购买时间提取特征数据来源：https://www.kesci.com/mw/dataset/5f64a07b71c700003072df60/file说明：本数据集共有104557条数据，共计11个字段字段：id ：序号orderID ：订单iduserID ：用户idgoodsID ：商品idorderAmount ：订单总额payment ：买家实际支付金额chanelID ：渠道idplatfromType ：购买渠道orderTime ：订单产生时间payTime

2021-03-16 10:14:36 793

原创 R语言绘制山脊图

R语言绘制山脊图数据格式如下：将其转换为下列格式：程序如下：#山脊图library(ggplot2)library(ggridges)#theme_set(theme_ridges())library(RColorBrewer)library(ggridges)library(readxl)mydata<- read_excel("data.xlsx")#读入数据Colormap<- colorRampPalette(rev(brewer.pal(11,'Spectr

2020-11-10 17:28:44 1127

原创试验设计及其可视化

试验设计数据概况尝试描述性可视化插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入数据概况我们知道，有时候，接触游戏中的一个概念会导致它不那么启动。也就是说，人们很难把这个概念记在脑子里。因此，在Chittaro和Buttussi的疏散游戏中暴露较长时间的玩家可能会记住较少的游戏所要教的内

2020-10-24 17:37:16 578

原创漏斗模型_绘制漏斗图

漏斗模型_绘制漏斗图漏斗思维，它是一种线性的思考方式，一般按照任务的完成路径，识别出几个关键的行为转化节点，然后分析行为点间的转化与流失情况，进而定位问题，指导决策。漏斗模型是指多个自定义事件序列按照制定顺序依次触发的流程中的量化转化模型，也就是从起点到终点有多个环节，每个环节都会产生用户流失，依次递减，每一步都会有一个转化率。数据概况：绘制图形：funnel <- read.csv("新手教程路径留存人数统计.csv",T,fileEncoding="utf8")# 查看funnel数

2020-10-06 11:31:13 1887

原创关联规则算法在游戏行业中的应用

关联规则算法在游戏行业中的应用Apriori算法应用广泛，可用于消费市场价格分析，猜测顾客的消费习惯，比如较有名的“尿布和啤酒”的故事。其核心思想是通过连接产生候选项及其支持度，然后通过剪枝生成频繁项集，这里的频繁项集是指所有支持度大于等于给定最小支持度的项集。项集：在关联分析中，包含0个或多个项的集合被称为项集（itemset）。如果一个项集包含k个项，则称它为k-项集。例如:{新手礼包，8条钥匙，10000金币，十个滑板} 是一个4-项集。空集是指不包含任何项的项集。现有数据集如下：其中：pl

2020-10-06 00:21:11 2491 3

原创留存率预测（利用T值调整）

留存率预测（利用T值调整）本文为《R语言游戏数据分析与挖掘》学习笔记，仅作分享。由于由幂函数拟合得到的留存率曲线过于平滑，而现实数据往往会出现锯齿状，由幂函数预测得到的数据在后期会出现预测误差较大等情况，且后期预测值大于实际值。如图所示：故可类比回归分析加权重系数的方法，添加T值对预测值进行调整。由经验可知：T值分布如下：故可借鉴上文方法，进行预测，再将预测值乘以对应的T值，便可得到调整后的预测值。①先利用上文方法对两类游戏进行留存率预测：程序如下：actual <- read.c

2020-10-05 17:20:44 1533

原创留存率预测模型

留存率预测模型由资料和模型可知：留存率曲线是一个指数曲线，可根据前7天留存率数据预测之后的留存率数据：利用nls函数求出幂指数函数y=a*x^b的系数a、b# 前七天实际留存率数据(day <- seq(1:7)) # 天数(ratio <- c(0.383,0.268,0.216,0.187,0.167,0.156,0.145)) # 留存率值# 利用nls函数求出幂指数函数y=a*x^b的系数a、bfit <- nls(ratio~a*day^b,start = list(

2020-10-05 16:44:42 2733

原创 Oracle数据库多表查询

笛卡尔积EMP表：select * from emp;DEPT表：select * from dept;直接一起输出，会出现问题：select * from emp,dept;未能实现一一对应。消除笛卡尔积：select * from emp,deptwhere emp.deptno=dept.deptno;成功实现了相匹配。使用别名：select e.*,d.dnamefrom emp e,dept dwhere e.deptno=d.deptno;s

2020-09-28 19:27:46 454

原创 Oracle数据库截取后N位字母

Oracle数据库截取后N位字母假设现在需要截取数据表中每个姓名的后三个字母。SELECT ename,SUBSTR(ename,LENGTH(ename)-2) FROM emp;SUBSTR(ename,LENGTH(ename)-2) 较难理解。LENGTH(ename)代表长度。不过SUBSTR()可以设置负数索引，表示从后向前数。select ename,SUBSTR(ename,-3) from emp;...

2020-09-28 17:40:52 713

原创 Oracle数据库综合应用

Oracle数据库综合应用查询员工的编号，姓名，雇佣日期，以及计算出每一位员工到今天为止被雇佣的年数，月数，天数。select empno,ename,hiredate,TRUNC(MONTHS_BETWEEN(SYSDATE,hiredate)/12) yearFROM emp;计算年：计算月：年的计算结果包含月数，余数实际上就是除12的结果，也就是月数。利用MOD()函数可以求出余数。select empno,ename,hiredate,TRUNC(MONTHS_BETWEEN(

2020-09-28 17:01:06 618

原创 Oracle数据库通用函数：NVL()函数和DECODE()函数

Oracle数据库通用函数：NVL()函数和DECODE()函数NVL()函数：如果发现数字内容为null，则用一个常数来替代。语法： NVL(列|null,为空的默认值）。select empno,ename,job,sal,sal,comm,NVL(comm,0),(sal+NVL(comm,0))*12 income FROM emp;这个查询使用了函数NVL(comm,0),把comm列所有的null都替换为0。DECODE()函数: 多数值判断，指的是在输出的时候，对不同的结果分别

2020-09-27 20:31:17 1207

原创 Oracle数据库转换函数

Oracle转换函数转换函数共有3种：TO_CHAR(),TO_DATE()和TO_NUMBER()。转字符串函数：该函数可以将数字或者日期转换为字符串。语法：TO_CHAR(列|日期|数字，转换格式)。转换格式主要有两种情况：日期转换字符串：年(yy),月(mm),日(dd),时(hh,hh24),分(mi),秒(ss)。数字转换字符串：任意的一位数字(9),货币(L,本地货币)。案例：格式化日期select TO_CHAR(SYSDATE,'yyyy-mm-dd'),TO_CHA

2020-09-27 19:38:29 667

原创对于teengamb数据集进行神经网络分类

对于teengamb数据集进行神经网络分类MLP神经网络介绍：MLP(Multi-Layer Perceptron)，即多层感知器，是一种趋向结构的人工神经网络，映射一组输入向量到一组输出向量。MLP可以被看做是一个有向图，由多个节点层组成，每一层全连接到下一层。除了输入节点，每个节点都是一个带有非线性激活函数的神经元(或称处理单元)。一种被称为反向传播算法的监督学习方法常被用来训练MLP。MLP是感知器的推广，克服了感知器无法实现对线性不可分数据识别的缺点。对teengamb利用神经网络方法进行分

2020-09-26 11:21:18 1539

空空如也

空空如也