苏侠客852-CSDN博客

原创线性回归相关基础

回归分析是一种统计工具,可让我们量化特定变量与结果之间的关系。它具有惊人的能力,可以隔离我们关心的统计关系,同时考虑其他可能混淆这种关系的因素。换句话说,我们可以隔离一个变量的影响,同时保持其他变量的影响不变。

2023-11-16 15:04:49 185

通过构造函数_init_()初始化窗口中的对象。通过createWidgets()方法创建窗口中的对象。pack按照组件的创建顺序将子组件添加到父组件中，按照垂直或者水平的方向自然排布。如果不指定任何选项，默认在父组件中自顶向下垂直添加组件。Frame框架是一个tkinter组件，表示一个矩形的区域。Frame一般作为容器使用，可以放置其他组件，从而实现复杂的布局。最后，将文件、目录的信息传入到程序中。pack适用于简单的垂直或水平排布，如果需要复杂的布局可以使用grid 或place。

2023-03-25 22:05:22 408

原创 ubuntu18.0.4安装mysql5.7.33部署java项目

ubuntu18.0.4安装mysql5.7.33部署java项目一、安装java环境二、安装mysql当前目录结构在module下新建mysql5.7文件夹在如下地址下载对应版本的安装包https://downloads.mysql.com/archives/community/详细下载安装过程可见：https://www.jb51.net/article/202399.htm将下载好的安装包上传到服务器更改文件权限将文件解压到指定目录…/module/mysql5.7下

2022-04-22 15:19:02 1433 1

原创 java基础

java基础1.堆，栈，方法区的作用堆：所有对象实例以及数组都要在堆上分配栈（虚拟机栈）：存储局部变量，即：基本数据类型、对象引用方法区：存储已被虚拟机加载的类信息，常量，静态变量，编译后的代码2.Java中的值传递机制java中引用类型的变量有：数组和对象，赋值时赋值的是地址。若参数是基本数据类型，则实参将真实的数据值复制给形参若参数是引用数据类型，则实参将引用数据类型的地址复制给形参3.对Java中封装性的体现和理解①程序设计追求高内聚低耦合，即类的内部操作细节自己完成，不允许外部

2022-03-13 22:55:34 457

原创计算机类SCI

Artificial IntelligenceInformation SystemsInformation SciencesBig Data ResearchExpert Systems with ApplicationsNeural NetworksData & Knowledge EngineeringJournal of Computational ScienceDecision Support SystemsArtificial Intelligence i

2021-11-20 15:27:30 441

原创大数据竞赛网站汇总

这里写自定义目录标题大数据竞赛网站汇总大数据竞赛网站汇总科大讯飞https://www.xfyun.cn/数据城堡DChttps://www.dclab.run/index.htmldatafountainhttps://www.datafountain.cn/biendatahttps://www.biendata.xyz/kecsihttps://www.heywhale.com/home/competition天池https://tianchi.aliyun.com/kag

2021-10-13 16:28:31 257

原创计算机中文核心汇总

@[TOC]计算机类核心期刊每期60左右每期20左右每期40左右每期20左右每期20左右每期60左右每期45左右每期20左右每期20左右每期12左右每期35左右每期20左右每期17左右

2021-10-07 14:50:01 2557

原创中文医疗文本数据集

1.中文医疗对话文本链接：https://pan.baidu.com/s/1muaxSpMQxEZ64U5Hgf6H0g提取码：38xz2.面向中文医疗科普知识的内容理解（一）医疗科普知识阅读理解链接：https://pan.baidu.com/s/1d41ExzK2nK9O_dk5tNdVyQ提取码：a55f3.面向中文医疗科普知识的内容理解（二）答非所问识别链接：https://pan.baidu.com/s/1vopY8x8n1GX4Vrv-QNZtEA提取码：2m034.第一届智能

2021-09-07 15:21:46 1834 5

转载运用深度学习进行文本生成

#运用深度学习进行文本生成link:https://www.cnblogs.com/massquantity/p/9511694.htmlcode:https://github.com/massquantity/text-generation-using-kerasAI写诗？？ AI创作小说？？近年来人们时常听到这类新闻，听上去很不可思议，那么今天我们来一探究竟，这种功能是如何通过深度学习来实现的。通常文本生成的基本策略是借助语言模型，这是一种基于概率的模型，可根据输入数据预测下一个最有可能出

2021-08-05 20:47:00 1568

原创天池-金融风控入门与实践

例子lightgbm可以直接定义类别特征，不需要进行转换为one-hot对于匿名特征：区分匿名特征与标签的关系是正向还是负向，再把正向的一起做特征交叉，负向的一起做特征交叉。以上就完成率baseline下面点开始优化第二次课程对于样本不均行的：设置模型的sample_weight,class_weight 等方法观察特征的维度，缩小属性种类比较多的特征维度。可以查看一下每一种属性值与label的分布情况。分箱后特征交叉的时...

2021-03-19 16:00:28 270

原创 AI学习知识库-LightGBM

LightGBM的主要优点：1.简单易用。提供了主流的Python\C++\R语言接口，用户可以轻松使用LightGBM建模并获得相当不错的效果。2.高效可扩展。在处理大规模数据集时高效迅速、高准确度，对内存等硬件资源要求不高。3.鲁棒性强。相较于深度学习模型不需要精细调参便能取得近似的效果。4.LightGBM直接支持缺失值与类别特征，无需对数据额外进行特殊处理LightGBM的主要缺点：1.相对于深度学习模型无法对时空位置建模，不能很好地捕获图像、语音、文本等高维数据。2.在拥有海量训练数

2021-03-19 08:56:47 1718 1

原创天池AI学习知识库-xgboost

机器学习-XGBoost[https://tianchi.aliyun.com/notebook-ai/home#notebookLabId=174623&notebookType=ALL&isHelp=false&operaType=5]本次我们选择天气数据集进行方法的尝试训练，现在有一些由气象站提供的每日降雨数据，我们需要根据历史降雨数据来预测明天会下雨的概率。样例涉及到的测试集数据test.csv与train.csv的格式完全相同，但其RainTomorrow未给出，为预测

2021-03-18 17:20:58 227

原创京东金融信贷需求预测机器学习竞赛--代码重构--特征工程

特征工程pivot()

2021-03-11 15:56:03 299

原创吊车尾竞赛分享

1、数据可视化查看异常点，查看数据分布，查看数据的规律，方便做数据预处理。1.1数据分布图汽车销量随月份的变化：1，12月份数据比较高，2月份数据比较低，从而构造特征汽车上牌量随时间变化：有一个很高的波峰，由特殊原因造成的，是异常值不能拿到模型去训练，会带来很大的噪声，（判断异常值：正负三个方差之内，方差越大，对峰值的容忍程度越大）需要对峰值做平滑处理。1.2散点图能够反映x轴和y轴的两个变量之间的相关性有多大。如果散点图趋势是上升的，表示两个变量正相关。如果趋势是下降的，表示两个变量负相.

2021-03-10 15:11:51 108

原创阈值调整

1.不平衡分类问题的阈值调整如上图所示，正负例样本不平衡，负样本多，分类器就会更容易把图片分成负样本，因此要设置阈值，如何选择阈值：1.ROC曲线上的最优阈值2.PR曲线上的最优阈值...

2021-03-04 13:55:00 1668 1

原创评价指标

模型评估指标1.混淆矩阵2.准确率，精确率，f1值精确率和召回率一般会呈现此消彼长的状况如下图所视;不能一味的要求准确率或者精确率高，因此f1值取得是精确率和召回率的调和平均不同领域所需要的评价标准不同，例如在医疗领域，不想遗漏下任何一位患者，因此希望召回率高。3.ROC曲线和 AUC值分类器会计算图片是汉堡的概率，其次我们会设置阈值（0~1 之间的任何一个数），因此我们会得到很多的混淆矩阵。就是：对于一个混淆矩阵，我们可以求出TPR，FPR两个指标，映射到ROC曲线之

2021-03-04 13:34:37 142 1

原创山东省第二届数据应用创新大赛日照赛区-公积金贷款逾期预测-赛后总结

任务从真实场景和实际应用出发，利用个人的基本身份信息、个人的住房公积金缴存和贷款等数据信息，需要参赛者建立准确的风险控制模型，来预测用户是否会逾期还款。提交说明：结果提交csv格式，编码为UTF-8，第一行为表头，如下例：id,label1,0.5562,0.987…注：对于label字段，其中越接近0代表无逾期，越接近1代表逾期。数据训练集提供40000名，测试集提供15000名的缴存人基本信息、缴存信息，贷款信息。选手可以下载数据，在本地进行算法调试，在比赛页面提交结果。数.

2021-03-03 10:44:13 1029 5

转载特征工程

Task3 - 特征工程数据分箱一般在建立分类模型时，需要对连续变量离散化，特征离散化后，模型会更稳定，降低了模型过拟合的风险。比如在建立申请评分卡模型时用logsitic作为基模型就需要对连续变量进行离散化，离散化通常采用分箱法。分箱的有以下重要性及其优势：离散特征的增加和减少都很容易，易于模型的快速迭代；稀疏向量内积乘法运算速度快，计算结果方便存储，容易扩展；离散化后的特征对异常数据有很强的鲁棒性：比如一个特征是年龄>30是1，否则0。如果特征没有离散化，一个异常数据“年龄300岁”

2021-01-20 14:37:49 91

转载征工程之数据分箱

https://cloud.tencent.com/developer/article/1388206机器学习（十六）特征工程之数据分箱2019-01-28阅读 5K01 分箱简介数据分箱（也称为离散分箱或分段）是一种数据预处理技术，用于减少次要观察误差的影响，是一种将多个连续值分组为较少数量的“分箱”的方法。例如，例如我们有一组关于人年龄的数据，如下图所示：初始数据现在我们希望将他们的年龄分组到更少的间隔中，可以通过设置一些条件来实现：分箱后的数据分箱的数据不一定必须是数字，它们可以是任

2021-01-20 14:21:24 171

转载 python with timer

添加链接描述

2021-01-17 14:45:30 614

原创机器学习流程介绍

2020-11-12 13:42:23 80

原创 06数据集划分

from sklearn.datasets import load_iris,fetch_20newsgroups,load_bostonfrom sklearn.model_selection import train_test_split# 花数据集li =load_iris()print("特征值")print(li.data)print("目标值")print(li.target)print(li.DESCR)print(li.feature_names)print(li.ta

2020-11-12 13:30:11 166

原创 05特征提取2，降维

05特征提取2，降维from sklearn.feature_selection import VarianceThresholdfrom sklearn.decomposition import PCAimport numpy as np#删除低方差的特征def var(): var = VarianceThreshold(threshold=0.0)#设置方差的范围 x = [[0,2,0,3],[0,1,4,3],[0,1,1,3]] data = var.fit

2020-11-12 00:09:42 110 1

原创 04特征处理1，归一化，标准化，文本提取，jieba分词

from sklearn.feature_extraction import DictVectorizerfrom sklearn.feature_extraction.text import CountVectorizerimport jieba#字典特征抽取def dictvec(): dict = DictVectorizer(sparse=False) #字典转换成二维数组 data = dict.fit_transform([{'city':'yc','temper

2020-11-11 20:12:53 503

原创 02python 基础笔记 numpy / pandas

02python 基础笔记 numpy / pandasimport numpy as npimport random#https://www.bilibili.com/video/BV1rJ411g7Mz?p=20#定义numpy数组使用np.array和np.aranget1 = np.arange(12)#t1 = np.array([1,2,3,4,5]) #同上print("t1:",t1,'\n',t1.shape)#定义二维数组 shape[0]行数 shape[1]列数

2020-11-10 18:58:28 125

原创 03.pandas

03.pandas笔记import pandas as pdimport numpy as np#定义seriess1 = pd.Series([1,2,2,2,5,4,5,5,5,5,6,8])print(s1)s1 = pd.Series([1,2,2,2,5,4,5,5,5,5,6,8],index=list("abcdefghijkl"))print(s1)#通过字典定义seriestemp_dict = {"name":"xxx","age":25,"tel":1234567

2020-11-08 14:24:08 654

原创 Python time time()方法

Python time time()方法利用time.time()方法，我们可以计算两个时间点之间的间隔，但是有些时候我们想要得到当前的年月日这些信息，那么在python中该怎么做呢？方法如下：>>> import time()>>> print time.time()1518068251.33>>> time = time.localtime(time.time())>>> print timetime.struct_t

2020-10-16 01:15:18 127

转载 np.dot()函数的用法详解

np.dot()函数的用法详解基本简介dot函数为numpy库下的一个函数，主要用于矩阵的乘法运算，其中包括：向量内积、多维矩阵乘法和矩阵与向量的乘法。向量内积向量其实是一维的矩阵，两个向量进行内积运算时，需要保证两个向量包含的元素个数是相同的。例1：import numpy as np x = np.array([1, 2, 3, 4, 5, 6, 7])y = np.array([2, 3, 4, 5, 6, 7, 8])result = np.dot(x, y)print(r

2020-10-16 01:06:24 1391

转载 random.uniform()总结

random.uniform()总结from numpy import randomnumpy.random.uniform(low=0.0, high=1.0, size=None)生出size个符合均分布的浮点数，取值范围为[low, high)，默认取值范围为[0, 1.0)>>> random.uniform()0.3999807403689315>>> random.uniform(size=1)array([0.55950578])>&

2020-10-16 00:58:14 9914 3

qq_38366112的博客