Eureka丶-CSDN博客

原创 RNN—原理详解及股票预测实战

循环神经网络（RNN）是基于序列数据（如语言、语音、时间序列）的递归性质而设计的，是一种反馈类型的神经网络，其结构包含环和自重复，因此被称为“循环”。它专门用于处理序列数据，如逐字生成文本或预测时间序列数据（例如股票价格）。一、RNN网络类型RNN以输入数m对应输出数n的不同，可以划分为5种基础结构类型：（1）one to one：其实和全连接神经网络并没有什么区别，这一类别算不上 RNN。（2）one to many：输入不是序列，输出是序列。可用于按主题生成文章或音乐等。（3

2021-12-16 11:35:08 2526

原创 Python实现字符串模糊匹配

Python的difflib库中get_close_matches方法，包含四个参数：· x：被匹配的字符串。· words：去匹配的字符串列表。· n，前topn个最佳匹配返回，默认为3。· cutoff：匹配度大小，为[0, 1]浮点数，默认数值0.6。import diffliblist1 = ['ape', 'apple', 'peach', 'puppy']difflib.get_close_matches('appel', list1)import keyw

2021-12-09 10:02:44 18984

原创时间序列分析——ARIMA模型预测餐厅销量

import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom IPython.core.interactiveshell import InteractiveShellInteractiveShell.ast_node_interactivity = "all"from matplotlib.pylab import style # 自定.

2021-12-07 17:58:19 4213 12

原创 Pandas冷门但很有用的一些函数

1、items()方法items()方法可以用来遍历数据集当中的每一列，同时返回列名以及每一列当中的内容，通过以元组的形式，示例如下df = pd.DataFrame({'species': ['bear', 'bear', 'marsupial'], 'population': [1864, 22000, 80000]}, index=['panda', 'polar', 'koala'])dffor lab

2021-11-23 17:09:07 1301 1

原创中文Word2Vec训练

中文的词向量训练和英文的差不多，输入数据的格式都一样，均需要可迭代的句子列表。但有一点需要注意的是，在英文句子里，单词之间自然地就很清楚哪个是哪个单词了，而中文句子则不然，计算机需要知道哪个部分称之为一个“词”。所以，中文词向量的训练关键在于分词的处理。通常使用jieba分词工具库来对语料库进行处理。下面来看一些简单例子：import os# jieba分词库import jiebaimport jieba.analyse# gensim词向量训练库from gensim.test.

2021-11-10 13:03:52 2918 5

原创 Python列表10个常用操作

1、迭代列表时如何访问列表下标索引普通版：List = [8, 23, 45]for index in range(len(List)): print(index, '-->', List[index])优雅版：for index, item in enumerate(List): print(index, '-->', item)enumerate 还可以指定元素的第一个元素从几开始，默认是0，也可以指定从1开始：for index, .

2021-11-03 14:47:20 350

原创 SQL多表联合查询时采用字段模糊匹配

先说一下背景和要求：背景：由于业务或是其他不描述的原因的问题导致原有存储的数据发生变动，与现有数据有差别，但还是能勉强看明白数据内容。要求：实现A表的名称字段和B表的名称字段要模糊匹配。上图：假如A表长这样：B表长这样：然后我要想变成这样：简单说就是在我关联查询两表时，条件字段的取值看起来不一样，但是意思是一样的，应该要把这种数据关联起来。但是SQL里面“=”两边又必须严格相同，所以现在怎么办呢？方法一：可以采用类似于LIKE模糊查询的办法。MySQL：

2021-10-29 20:21:54 15515 1

原创机器学习——特征工程详解

目录1 特征工程是什么？2 数据预处理2.1 无量纲化2.1.1 标准化2.1.2 区间缩放法2.1.3 标准化与归一化的区别2.2 对定量特征二值化2.3 对定性特征哑编码2.4 缺失值计算2.5 数据变换3 特征选择3.1 Filter3.1.1 方差选择法3.1.2 相关系数法3.1.3 卡方检验3.1.4 互信息法3.2 Wrapper3.2.1 递归特征消除法3.3 Embedded3.3.1 基于惩罚项的特..

2021-10-25 23:33:34 2084

原创 SQL对数据作简单处理

1、筛选某字段取值包含汉字的数据SELECT * FROM 表名 WHERE LENGTH(字段名)<>CHARACTER_LENGTH(字段名)2、筛选某字段取值是/不是数字的数据--是数字：SELECT 字段名 FROM 表名 WHERE 字段名 REGEXP '^[0-9]+$'=1--不是数字：SELECT 字段名 FROM 表名 WHERE 字段名 REGEXP '^[0-9]+$'=03、字段值的数据类型转换SELECT CAST(表达式 AS 数据

2021-10-19 17:37:25 529

原创 SQL中如何处理除数为0的情况？

问题我们在进行数据统计的时候，经常会遇到求百分比，环比，同比等这些需要除以某个数的情况，而如果除数为0，数据库是会报错的。解决办法方法一SELECT CASE WHEN B=0 THEN 0 ELSE A/B END FROM 表名方法二SELECT ISNULL(A/NULLIF(B,0),0) FROM 表名NULLIF函数有两个参数,定义如下：NULLIF( expression1 , expression2 )其作用就是：如果两个指定的表达式相等

2021-10-19 17:13:56 1573

原创 SQL常用语句总结整理

1、创建数据库CREATE DATABASE 库名2、删除数据库DROP DATABASE 库名3、创建新表CREATE TABLE 表名(列名1 数据类型1 [not null] [primary key],列名2 数据类型2 [not null],..)4、根据已有表创建表CREATE TABLE 表名 ASSELECT 列名1,列名2，···FROM 旧表5、删除新表DROP TABLE 表名6、增加一列ALTER TABLE 表

2021-10-19 00:46:47 7443

原创 DeepFM详细流程解析及建模演示

· 流程解析关于DeepFM理论的说明，很多博客或论文已有说明，这里就不再赘述。下面主要是说一下模型如何使用以及在整个过程中，算法对数据做了些什么事。首先还是这张图：一眼看过去，超级复杂是不是？确实，但是别慌，我们一小块一小块地看。1、Sparse Feature框框Sparse Feature是指离散型变量。比如现在我有数据：xx公司每个员工的姓名、年龄、岗位、收入的表格，那么年龄和岗位就属于离散型变量，而收入则称为连续型变量。这从字面意思也能够理解。好，现在Sparse Fe

2021-10-14 01:00:53 4091 9

原创基于用户的协同过滤——ml-1m数据集测试

import sysimport randomimport mathimport osimport numpy as npimport pandas as pdfrom operator import itemgetterfrom collections import defaultdictrandom.seed(0)class UserBasedCF(object): """ TopN recommendation - User Based Collabora.

2021-10-12 17:55:29 2257

原创 K-Means聚类算法演示及可视化展示

#导入包from sklearn.cluster import KMeansX = [[0.0888, 0.5885], [0.1399, 0.8291], [0.0747, 0.4974], [0.0983, 0.5772], [0.1276, 0.5703], [0.1671, 0.5835], [0.1906, 0.5276], [0.1061, 0.5523], [0.2446, 0.4007], [0.167, 0.477], [0.2485, 0.4313], [0.1.

2021-10-12 15:17:03 4196

原创数据分析——统计学理论和方法

1、描述统计描述统计是通过图表或数学方法，对数据资料进行整理、分析，并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。集中趋势分析集中趋势分析主要靠平均数、中数、众数等统计指标来表示数据的集中趋势。例如被试的平均成绩多少？是正偏分布还是负偏分布？离中趋势分析离中趋势分析主要靠全距、四分差、平均差、方差（协方差：用来度量两个随机变量关系的统计量）、标准差等统计指标来研究数据的离中趋势。例如，我们想知道两个教学班的语

2021-10-12 14:37:20 2268

原创 Python实现八大经典排序算法

1、插入排序插入排序的基本操作就是将一个数据插入到已经排好序的有序数据中，从而得到一个新的、个数加一的有序数据，算法适用于少量数据的排序，时间复杂度为O(n^2)。是稳定的排序方法。插入算法把要排序的数组分成两部分：第一部分包含了这个数组的所有元素，但将最后一个元素除外（让数组多一个空间才有插入的位置），而第二部分就只包含这一个元素（即待插入元素）。在第一部分排序完成后，再将这个最后元素插入到已排好序的第一部分中。# 插入排序def insert_sort(lists): count

2021-10-12 11:51:43 130

原创机器学习——支持向量机模型

在样本空间中，划分超平面可通过如下线性方程来描述其中为法向量，决定了超平面的方向；为位移项，决定了超平面与原点之间的距离。样本空间中任意点到超平面的距离为假设超平面能将样本正确分类，即对于，若，则有；若，则有。我们把使得当时，的样本点，以及使得当时，的样本点称为“支持向量”，两个异类支持向量到超平面的距离之和为它被称为“间隔”。欲找到具有“最大间隔”划分的超平面，也就是要找到能满足约束条件的参数和，使得最大，即显然，为了最大化间隔，仅需最大化，这等价于最小化。于是..

2021-10-11 14:19:06 2245

原创机器学习——神经网络模型

在“M-P神经元模型”中，神经元接收到来自个其他神经元传递过来的输入信号，这些输入信号通过带权重的连接进行传递，神经元接收到的总输入值将与神经元的阈值进行比较，然后通过“激活函数”处理以产生神经元的输出。常用Sigmoid函数作为激活函数。把许多个这样的神经元按一定额层次结构连接起来，就得到了神经网络。事实上，从计算机科学的角度看，我们可以先不考虑神经网络是否真的模拟了生物神经网络，只需将一个神经网络视为包含了许多参数的数学模型，这个模型是若干个函数，例如相互嵌套而得。感知机由两层神经元组成，输入层

2021-10-11 12:37:14 2271

原创机器学习——Softmax分类模型

Softmax分类—很多时候，在多分类问题中我们希望输出的是取到某个类别的概率，或者说，我们希望分值大的那个类别被经常取到，而分值较小的那一项也有一定可能性偶尔被取到。Softmax即是这样一种模型，最后的输出是每个类别被取到的概率值。假设有一个数组，表示中的第个元素，那么这个元素的Softmax值为：通常我们采用“交叉熵”它用来衡量两个取值为正的函数的相似性。对于两个完全相同的函数，它们的交叉熵为零；交叉熵越大，两个函数差异越大，反之，两个函数差异越大；对于概率分布或者概率密度函数，如

2021-10-11 11:18:54 2634

原创机器学习——多分类学习模型

多分类学习—多分类问题的基本思路是“拆解法”，即将多分类任务拆为若干个二分类任务求解。常见的拆分策略由三种：“一对一（OvO）”、“一对其余（OvR）”和“多对多（MvM）”。OvO是把要划分的N个类别两两配对，从而产生N(N-1)/2个二分类任务，每一个二分类任务都有一个分类器，最终结果可通过投票产生：即把预测得最多得类别作为最终分类结果。OvR则是每次将一个类的样例作为正例、所有其他类的样例作为反例来训练N个分类器。若一个样例被多个分类器预测为正类，则通常考虑各分类器的预测置信度，选择置信度最大

2021-10-11 11:09:06 3796

Jeremiah_的博客

原创 RNN—原理详解及股票预测实战

原创 Python实现字符串模糊匹配

原创时间序列分析——ARIMA模型预测餐厅销量

原创 Pandas冷门但很有用的一些函数

原创中文Word2Vec训练

原创 Python列表10个常用操作

原创 SQL多表联合查询时采用字段模糊匹配

原创机器学习——特征工程详解

原创 SQL对数据作简单处理

原创 SQL中如何处理除数为0的情况？

原创 SQL常用语句总结整理

原创 DeepFM详细流程解析及建模演示

原创基于用户的协同过滤——ml-1m数据集测试

原创 K-Means聚类算法演示及可视化展示

原创数据分析——统计学理论和方法

原创 Python实现八大经典排序算法

原创机器学习——支持向量机模型

原创机器学习——神经网络模型

原创机器学习——Softmax分类模型

原创机器学习——多分类学习模型

原创机器学习——逻辑回归模型

原创机器学习——线性回归模型

原创机器学习——基本术语及常用模型评估方法

原创 Word2Vec可视化展示

原创 Pandas数据预处理常用函数

原创 Pandas数据探索常用函数

原创利用Tensorflow实现基于矩阵乘法的余弦相似度大规模计算

原创 Pandas数据清洗常用函数

原创提取两个向量对应坐标不同时为零的坐标

2022跨年烟花源码_js

空空如也