Elvis_hui-CSDN博客

原创 LLM模型-讯飞星火与百度文心api调用

目前国内的效果在某些方面还是差点意思，没有公开过prompt实例，文心对格式控制很难把控，很难去掉提示语，星火给出的结果有时候偏差很大，估计还得明年中旬，训练慢慢好起来。，可以先上B站看一下关于吴恩达对openai 的prompt 视频。任务：明确而简洁地陈述Prompt 要求模型生成的内容。指令：模型在生成文本时应遵循的指令。角色：模型在生成文本时应扮演的角色。创建应用获取相关密钥。

2023-11-18 18:38:30 1415

原创深入理解【正则化的L1-lasso回归和L2-岭回归】以及相关代码复现

为了防止过拟合，通常在线性的模型的基础上引入一个正则化项。$L_1$和$L_2$正则化中，正则项是模型参数的$L_1$范数和$L_2$范数。在训练集上表现很好，在测试集上表现不好【模型过于复杂】，ε服从均值为0，标准差为0.01的正态分布。特征维度为200，将训练数据集的样本设低20。网格搜索可以在参数空间中搜索最优参数。1- 过拟合欠拟合模型选择。1- 过拟合欠拟合模型选择。3- L2正则代码复现。学习到的数据特征过少。3- L2正则代码复现。2- 正则L1与L2。2- 正则L1与L2。

2023-03-30 17:54:36 814 1

原创激活函数σ、tanh、relu、Leakyrelu、LR_BP反向传播推导

绘制sigmoid函数的导数。当输入为0时，sigmoid函数的导数达到最大值0.25；当输入越偏离0时，sigmoid函数的导数越接近0。tanh（双曲正切）函数可以将元素的值变换到-1和1之间 ,阈值（-1,1）1-1 sigmoid导数。1-1 sigmoid导数。2-1 tanh函数导数。2-1 tanh函数导数。

2023-03-22 11:48:24 733

原创深度学习-softmax回归

引用Fashion-MNIST 数据集复现softmax回归，深入了解pytorch 简洁的操作，以及巩固softmax函数的基础知识。

2023-03-21 11:51:57 841

原创深度学习-4 Linear regression for Pytorch

写一个自己的网络from torch import nn class LinearNet(nn . Module) : def __init__(self , n_feature) : super(LinearNet , self) . __init__() self . linear = nn . Linear(n_feature , 1) #定义前向传播 def forward(self , x) : y = self . linear(x) return y。

2023-03-15 10:15:39 293

原创深度学习-3.Logistic regression for Pytorch

为了进一步熟悉pytorch操作和相关函数熟悉，以复现一个逻辑回归底层来帮助了解其过程以及方法等原理。

2023-03-14 17:13:04 100

原创深度学习笔记-2.自动梯度问题

记录梯度反向传播的过程，及相应的问题。

2023-03-08 16:59:08 367

原创深度学习笔记-1.基本的数据操作

作为动手学深度学习的基础，掌握对内存中数据的处理，以及一些函数的掌握很有必要，本章是开篇对深度学习的Pytorch版本的学习与记录，原书是李沐 MXNet版本《动手学深度学习》，简单的记录一些函数的功能特点和用法，记录方便巩固。

2023-03-08 15:10:53 347

原创对Dataframe根据两列结果修改其他两列的数据，然后对结果进行批处理写入mysql数据库

对df根据两列的值计算判断，根据结果修改其他两列值的数据，并将结果批量插入mysql 数据库。其实本编主要阐述是将结果怎么批量插入数据库，防止阻塞。、

2022-11-23 18:41:24 416

原创 python基本调度工具Apscheduler用法

这是一个使用pgrep命令的形式，通过参数-f（full）和一个匹配模式来查找包含指定字符串的进程。如果找到匹配的进程，pgrep命令将返回进程的PID（进程ID）；：这是一个重定向操作，将前面命令的标准输出（stdout）重定向到/dev/null设备文件中。在这里，我们将pgrep命令的输出重定向到/dev/null，因此不会在终端上显示输出信息。如果pgrep命令返回了任何输出（即找到了匹配的进程），则条件为真，执行if语句后面的代码块。否则，条件为假，执行if语句后面的其他代码块（如果有）。

2022-11-02 18:58:28 649

原创一步解决：AttributeError: ‘NoneType‘ object has no attribute ‘loader‘问题

tensorflow运行报错： AttributeError: 'NoneType' object has no attribute 'loader' ，简单的解决方案！

2022-09-22 10:53:23 2108 1

原创机器学习-手写决策树算法-信息增益算法

【代码】机器学习-手写决策树算法-信息增益算法。

2022-08-26 19:44:09 683

原创 pandas-多个DataFrame同时进行merge合并

用merge两个两个合并太繁琐，考虑使用reduce聚合方法。有表df1,df2,df3,df4需要进行合并。或是目录下的所有文件进行合并等。。。。

2022-08-18 18:33:46 3279 3

原创机器学习--贝叶斯网

[代码]基于西瓜问题的一种贝叶斯网结构和属性"根蒂"的条件概率表从图中网络结构可看出色泽" 直接依赖于 "好瓜 “和"甜度”，而"根蒂"则直接依赖于"甜度"进一步从条件概率表能得到"根蒂"对"甜度"量化依赖关系?贝叶斯网络（BN）是一种概率图形模型，用于在医学，生物学，流行病学，经济和社会科学等各个领域的不确定性下进行推理。在癌症DAG中，“污染”和“吸烟者”是“癌症”的父母，他们也被称为“癌症”的直接原因。的关系，例如，“污染”和“吸烟者”是独立的，“吸烟者”和“癌症”是依赖的。......

2022-08-11 20:01:54 1268

原创机器学习--浅谈朴素贝叶斯

小白一读就懂的贝叶斯朴素贝叶斯，是基于贝叶斯理论的情况，本文内容摘自【西瓜书】和【李航的统计学习方法】内含基本概念理论，公式，公式详解，代码等部分。

2022-07-29 14:54:28 312

原创二维列表拆分一维chain，合并并统计其中元素的个数

利用chain 将二维列表，拆分为一维列表，然后词频统计计数

2022-07-27 13:50:50 122

原创有两列，按照其中的一列分组，对另一列统计，转为list形式

不规则长度字典转DataFrame，分组聚合，字典按key 追加值。往往字典在实际中能解决很多问题，而且很灵活，我们重点掌握字典的一些用法。

2022-07-21 20:08:48 481

原创 when-otherwise for pyspark用法

对city 和 model 两列个数小于4的，全部修改为默认值

2022-06-14 16:08:42 1139

原创自定义链表实现反转链表

自定义链表实现链表反转利用堆栈实现链表反转自定义链表描述：输入123456输出654321利用堆栈实现链表反转a=[]a.append(1)a.append(2)a.append(3)a.append(4)while(a): print(a.pop())自定义链表class node(): def __init__(self, elem, next=None): if isinstance(elem, int): self.el

2022-05-17 00:21:35 214

原创登台阶爬楼梯问题

登台阶爬楼梯问题问题描述有N个台阶，0<N<=50, 每次只跳1个或者3个台阶，输入N，有多少种方式到达台阶终点# 示例 1：输入：n = 3输出：2解释：有两种方法可以爬到楼顶。1. 1 阶 + 1 阶+1阶2. 3阶# 示例 2：输入：n = 4输出：3解释：有两种方法可以爬到楼顶。1. 1 阶 + 1 阶 + 1阶 + 1阶2. 3阶 + 1阶3. 1阶 + 3阶很多时候我们自己对问题的描述所呈现的大都基于固有的思想，我们需要在固

2022-05-11 01:12:50 620

原创 tensorflow2.0—矩阵向量相关操作

张量的一些数学操作一、标量运算1 maximum 与 minimum2 幅值裁剪clip_by_value 与 clip_by_norm 二、向量运算1 reduce_sum、mean、max、min2 reduce_prob 乘积3 reduce_all 与 reduce_any [逻辑符and or】4 foldr 实现匿名函数5 cum累计6 argmax 与 argmmin 极值索引7 top_k 排序三、矩阵运算1 矩阵乘法@、转置、逆、范数、行列式2 矩阵分解1.矩阵正交三角（QR）分

2022-05-06 09:00:00 947

原创张量数据的一系列操作

张量数据的一系列操作相关函数操作一、索引切片1 silce 与列表切片二、不规则切片1 gather2 gather_nd3 boolean_mask三、修改张量元素1 where2 scatter_nd四、维度问题reshape、sequeeze、expand_dims、transpose五、数据合并与分割操作concat 与 stack 与 splitsplit相关函数操作张量的数据类型基本和 numpy 差不多，基本函数操作联想一下就行常量 tf.constant() 不可变变

2022-05-05 19:51:45 657

原创 Pyspark_ML_PCA_调参_数理统计

Pyspark_ML_PCA_调参_数理统计一、降维模型二、模型优化1、交叉验证模式2、留出法模式三、实用工具1、向量和矩阵2、数理统计一、降维模型Mllib中支持的降维模型只有主成分分析PCA算法。这个模型在spark.ml.feature中，通常作为特征预处理的一种技巧使用。from pyspark.ml.feature import PCAfrom pyspark.ml.linalg import Vectorsdata = [(Vectors.sparse(5, [(1, 1.0), (

2022-03-15 21:35:10 1849

原创 Pyspark_ML_线性回归_决策树回归

Pyspark_ML_线性回归_决策树回归回归模型1，线性回归 2，决策树回归回归模型Mllib支持常见的回归模型，如线性回归，广义线性回归，决策树回归，随机森林回归，梯度提升树回归，生存回归，保序回归。下面仅以线性回归和决策树回归为例。1，线性回归from pyspark.ml.regression import LinearRegression# 载入数据dfdata = spark.read.format("libsvm")\ .load("data/sample_linear_

2022-03-15 21:12:58 827 1

原创 spark_ML_聚类KMeans_高斯混合模型_二分均值

spark_ML_聚类Mllib支持的聚类模型较少，主要有K均值聚类，高斯混合模型GMM，以及二分的K均值，隐含狄利克雷分布LDA模型等。1，K均值聚类from pyspark.ml.clustering import KMeansfrom pyspark.ml.evaluation import ClusteringEvaluator# 载入数据dfdata = spark.read.format("libsvm").load("data/sample_kmeans_data.txt")

2022-03-15 21:03:16 1584

原创 Pyspark_Ml_决策树_RF_GBT

spark_ML_决策树1，决策树代码实现from pyspark.ml import Pipelinefrom pyspark.ml.classification import DecisionTreeClassifierfrom pyspark.ml.feature import StringIndexer, VectorIndexerfrom pyspark.ml.evaluation import MulticlassClassificationEvaluator# 载入数据dfda

2022-03-15 20:47:18 2027 2

原创 PySpark_ML_相关API特征工程处理

ML下的特征工程相关API特征工程1、CountVectorizer2、Word2Vec3、OnHotEncoder4、 MinMax标准化5、MaxAbsScaler标准化6、SQLTransformer7、 Imputer特征工程spark的特征处理功能主要在 pyspark.ml.feature 模块中，包括以下一些功能。特征提取：Tf-idf, Word2Vec, CountVectorizer, FeatureHasher特征转换：OneHotEncoderEstimator, N

2022-03-15 20:16:20 1121

原创 PySpark_Ml_逻辑归回分词预测

Spark——ML下的学习库一，MLlib基本概念二， Pipeline流水线范例1，准备数据2，定义模型3，训练模型4，使用模型5，评估模型6，保存模型Llib是Spark的机器学习库，包括以下主要功能。实用工具：线性代数，统计，数据处理等工具特征工程：特征提取，特征转换，特征选择常用算法：分类，回归，聚类，协同过滤，降维模型优化：模型评估，参数优化。MLlib库包括两个不同的部分：pyspark.mllib 包含基于rdd的机器学习算法API，目前不再更新，以后将被丢弃，不建议使用。p

2022-03-15 19:59:20 1775

原创工业级DBSCAN分布式代码展现

密度聚类DBCSCAN工业化实现DBSCAN1,生成样本点2，分批次广播KDTree得到邻近关系**3，根据DBSCAN邻域半径得到有效邻近关系 dfpair4，创建临时聚类簇 dfcore5，得到临时聚类簇的核心点信息6，对rdd_core分区分步合并 rdd_core(min_core_id, core_id_set)7, 获取每一个core的簇信息8，求每一个簇的代表核心和簇元素数量9，求每一个点的簇id，噪声点簇id赋值为-110，保存和可视化结果DBSCAN1,生成样本点%matplotl

2022-03-15 19:28:35 429

原创机器学习-DBSCAN密度聚类

DBSCAN密度聚类DBCSCANDBSCANDBSCAN的基本概念可以用以下4点总结1个核心思想：基于密度2个算法参数3种点的类别4种点的关系DBSCAN算法步骤密度聚类：用于检测任务，找异常点，离群点，效果明显。针对环形数据，曲线数据大圆：核心对象，不需要指定簇，周围核心半径有大于min_sample点小圆：非核心对象，周围少于min_sample点黑色点：离群点和任何核心对象的距离大于阈值DBSCAN的基本概念可以用以下4点总结1个核心思想：基于密度直观效果上看，DBSCAN算法可以

2022-03-15 16:55:38 2833

原创 SparkDF操作与SQL交互和相关函数整理

SparkDF与SparkSQL交互操作函数笔记一、生成DF方式1.toDF2.createDataFrame3.list 转 DF4.schema动态创建DataFrame5.通过读取文件创建DF二、保存文件三、DF相关API1.Action2.RDD类操作3.Excel类操作四、DF与SQL交互操作1.查询 select,selectExpr,where2.表连接 join,union,unionAll3.表分组 groupby,agg,pivot4.窗口函数、爆炸函数、复合型函数4-1.窗口函数4-2

2022-03-15 00:41:27 3551

原创 RDD常用算子整理

相关算子整理1.Action2.Transformation3.key-valueRDD的操作4.缓存操作5. 共享变量from pyspark import SparkConf,SparkContextimport findspark findspark.init()conf=SparkConf().setAppName('RD').setMaster('local[*]')sc=SparkContext(conf=conf)1.Actioncollect将数据汇集到Driver

2022-03-14 18:26:08 1716

原创 pyspark_RDD练习

RDD编程练习熟悉一些算子的常规用法，多加练习求平均数求众数求TopN排序并返回序号二次排序连接操作分组求众数熟悉一些算子的常规用法，多加练习求平均数#任务：求data的平均值data = [1,5,7,10,23,20,6,5,10,7,10]rdd_data = sc.parallelize(data)s = rdd_data.reduce(lambda x,y:x+y+0.0)n = rdd_data.count()avg = s/nprint("average:",avg)

2022-03-09 08:37:54 990

原创本机安装PySpark3.2.0_python3.8

本机安装PySpark3.2.0__python3.8相关需求安装Anaconda安装JDK然后配置相关环境pandas：处理小规模数据集Spark： 3.2.0以上结合了pandasAPI 大规模的数据集处理1.JDK安装1-1 直接默认安装，然后配置环境变量1-2 点击path配置添加如下win+r->cmd->javajavacjava -version #jdk版本查看jdk是否配置成功2.安装spark并配置相关环境变量解压到指定目录

2022-03-08 14:34:32 2632 7

原创 Embedding词向量

Go straight to code！from tensorflow.keras.layers import Dense,Flatten, Embedding,Inputfrom tensorflow.keras.models import Modelfrom tensorflow.keras.preprocessing import sequence,textfrom tensorflow.keras.metrics import binary_accuracyfrom tensorflow.

2022-01-06 16:19:24 579

原创 pandas读取数据库mysql及处理where in 【List，Array】问题

1.pandas读取数据库mysql#jupyter notebook安装pymysql !pip install pymysql#用到的模块create_engine import pandas as pd from sqlalchemy import create_engine # MySQL的用户：root, 密码:123456, 端口：3306,数据库：testengine =create_engine('mysql+pymysql://root:123456@localhost:

2021-12-31 16:06:03 1030

原创 python连接hive--Pyhive

Pyhive安装包pip install saslpip install thriftpip install thrift-saslpip install PyHive# 安装对应的包 sasl可能会报错#下载sasl文件sasl下载执行语句第一种from pyhive import hivedef select_pyhive(sql): # 创建hive连接 conn = hive.Connection(host='##', port=##, username=

2021-09-30 10:05:44 630

原创 Anaconda安装与修改python版本为conda版本

linux显示python2.7没有显示你安装Anconda的python版本说明你安装的conda版本没有激活vim ~/.bashrc//添加你自己安装的Anaconda下的bin路径export PATH=/data/anaconda3/bin:$PATHsource ~/.bashrc# 激活系统环境变量# vim 进入配置文件vim /etc/profile# 添加 anaconda 的 bin目录# a i o 进入插入模式# 末尾添加export PATH

2021-09-29 18:12:29 699

原创 statsmodels时间序列

statsmodels是统计建模分析的核心工具包，其包括了几乎所有常见的各种回归模型、非参数模型和估计、时间序列分析和建模以及空间面板模型等statsmodels统计建模分析时间序列预测7种方法1.朴素法2.简单平均法3.移动平均法4.简单指数法5.Holt 线性趋势法6.Holt-Winters季节性预测模型7.ARIMA 自回归移动平均模型时间序列预测7种方法1.朴素法如果数据集在一段时间内都很稳定，我们想预测第二天的价格，可以取前面一天的价格，预测第二天的值。这种假设第一个预测点和上一个..

2021-09-17 11:07:16 952 1

原创 Text_cnn

1.基本文本卷积For more information refer to:Kim 2014import numpy as npimport matplotlib.pyplot as pltfrom tensorflow import kerasfrom tensorflow.keras import layersfrom tensorflow.keras.preprocessing.sequence import pad_sequencesnum_features = 3000

2021-09-03 18:11:46 106

sample_linear_regression_data.txt

sample_kmeans_data.txt

泰坦尼克号数据-titanic

空空如也