自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(29)
  • 资源 (1)
  • 收藏
  • 关注

原创 RNN—原理详解及股票预测实战

循环神经网络(RNN)是基于序列数据(如语言、语音、时间序列)的递归性质而设计的,是一种反馈类型的神经网络,其结构包含环和自重复,因此被称为“循环”。它专门用于处理序列数据,如逐字生成文本或预测时间序列数据(例如股票价格)。一、RNN网络类型RNN以输入数m对应输出数n的不同,可以划分为5种基础结构类型:(1)one to one:其实和全连接神经网络并没有什么区别,这一类别算不上 RNN。(2)one to many:输入不是序列,输出是序列。可用于按主题生成文章或音乐等。(3

2021-12-16 11:35:08 2526

原创 Python实现字符串模糊匹配

Python的difflib库中get_close_matches方法,包含四个参数:· x:被匹配的字符串。· words:去匹配的字符串列表。· n,前topn个最佳匹配返回,默认为3。· cutoff:匹配度大小,为[0, 1]浮点数,默认数值0.6。import diffliblist1 = ['ape', 'apple', 'peach', 'puppy']difflib.get_close_matches('appel', list1)import keyw

2021-12-09 10:02:44 18984

原创 时间序列分析——ARIMA模型预测餐厅销量

import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom IPython.core.interactiveshell import InteractiveShellInteractiveShell.ast_node_interactivity = "all"from matplotlib.pylab import style # 自定.

2021-12-07 17:58:19 4213 12

原创 Pandas冷门但很有用的一些函数

1、items()方法items()方法可以用来遍历数据集当中的每一列,同时返回列名以及每一列当中的内容,通过以元组的形式,示例如下df = pd.DataFrame({'species': ['bear', 'bear', 'marsupial'], 'population': [1864, 22000, 80000]}, index=['panda', 'polar', 'koala'])dffor lab

2021-11-23 17:09:07 1301 1

原创 中文Word2Vec训练

中文的词向量训练和英文的差不多,输入数据的格式都一样,均需要可迭代的句子列表。但有一点需要注意的是,在英文句子里,单词之间自然地就很清楚哪个是哪个单词了,而中文句子则不然,计算机需要知道哪个部分称之为一个“词”。所以,中文词向量的训练关键在于分词的处理。通常使用jieba分词工具库来对语料库进行处理。下面来看一些简单例子:import os# jieba分词库import jiebaimport jieba.analyse# gensim词向量训练库from gensim.test.

2021-11-10 13:03:52 2918 5

原创 Python列表10个常用操作

1、迭代列表时如何访问列表下标索引普通版:List = [8, 23, 45]for index in range(len(List)): print(index, '-->', List[index])优雅版:for index, item in enumerate(List): print(index, '-->', item)enumerate 还可以指定元素的第一个元素从几开始,默认是0,也可以指定从1开始:for index, .

2021-11-03 14:47:20 350

原创 SQL多表联合查询时采用字段模糊匹配

先说一下背景和要求:背景:由于业务或是其他不描述的原因的问题导致原有存储的数据发生变动,与现有数据有差别,但还是能勉强看明白数据内容。要求:实现A表的名称字段和B表的名称字段要模糊匹配。上图:假如A表长这样:B表长这样:然后我要想变成这样:简单说就是在我关联查询两表时,条件字段的取值看起来不一样,但是意思是一样的,应该要把这种数据关联起来。但是SQL里面“=”两边又必须严格相同,所以现在怎么办呢?方法一:可以采用类似于LIKE模糊查询的办法。MySQL:

2021-10-29 20:21:54 15515 1

原创 机器学习——特征工程详解

目录1 特征工程是什么?2 数据预处理2.1 无量纲化2.1.1 标准化2.1.2 区间缩放法2.1.3 标准化与归一化的区别2.2 对定量特征二值化2.3 对定性特征哑编码2.4 缺失值计算2.5 数据变换​3 特征选择3.1 Filter3.1.1 方差选择法3.1.2 相关系数法3.1.3 卡方检验3.1.4 互信息法3.2 Wrapper3.2.1 递归特征消除法3.3 Embedded3.3.1 基于惩罚项的特..

2021-10-25 23:33:34 2084

原创 SQL对数据作简单处理

1、筛选某字段取值包含汉字的数据SELECT * FROM 表名 WHERE LENGTH(字段名)<>CHARACTER_LENGTH(字段名)2、筛选某字段取值是/不是数字的数据--是数字:SELECT 字段名 FROM 表名 WHERE 字段名 REGEXP '^[0-9]+$'=1--不是数字:SELECT 字段名 FROM 表名 WHERE 字段名 REGEXP '^[0-9]+$'=03、字段值的数据类型转换SELECT CAST(表达式 AS 数据

2021-10-19 17:37:25 529

原创 SQL中如何处理除数为0的情况?

问题我们在进行数据统计的时候,经常会遇到求百分比,环比,同比等这些需要除以某个数的情况,而如果除数为0,数据库是会报错的。解决办法方法一SELECT CASE WHEN B=0 THEN 0 ELSE A/B END FROM 表名方法二SELECT ISNULL(A/NULLIF(B,0),0) FROM 表名NULLIF函数有两个参数,定义如下:NULLIF( expression1 , expression2 )其作用就是:如果两个指定的表达式相等

2021-10-19 17:13:56 1573

原创 SQL常用语句总结整理

1、创建数据库CREATE DATABASE 库名2、删除数据库DROP DATABASE 库名3、创建新表CREATE TABLE 表名(列名1 数据类型1 [not null] [primary key],列名2 数据类型2 [not null],..)4、根据已有表创建表CREATE TABLE 表名 ASSELECT 列名1,列名2,···FROM 旧表5、删除新表DROP TABLE 表名6、增加一列ALTER TABLE 表

2021-10-19 00:46:47 7443

原创 DeepFM详细流程解析及建模演示

· 流程解析关于DeepFM理论的说明,很多博客或论文已有说明,这里就不再赘述。下面主要是说一下模型如何使用以及在整个过程中,算法对数据做了些什么事。首先还是这张图:一眼看过去,超级复杂是不是?确实,但是别慌,我们一小块一小块地看。1、Sparse Feature框框Sparse Feature是指离散型变量。比如现在我有数据:xx公司每个员工的姓名、年龄、岗位、收入的表格,那么年龄和岗位就属于离散型变量,而收入则称为连续型变量。这从字面意思也能够理解。好,现在Sparse Fe

2021-10-14 01:00:53 4091 9

原创 基于用户的协同过滤——ml-1m数据集测试

import sysimport randomimport mathimport osimport numpy as npimport pandas as pdfrom operator import itemgetterfrom collections import defaultdictrandom.seed(0)class UserBasedCF(object): """ TopN recommendation - User Based Collabora.

2021-10-12 17:55:29 2257

原创 K-Means聚类算法演示及可视化展示

#导入包from sklearn.cluster import KMeansX = [[0.0888, 0.5885], [0.1399, 0.8291], [0.0747, 0.4974], [0.0983, 0.5772], [0.1276, 0.5703], [0.1671, 0.5835], [0.1906, 0.5276], [0.1061, 0.5523], [0.2446, 0.4007], [0.167, 0.477], [0.2485, 0.4313], [0.1.

2021-10-12 15:17:03 4196

原创 数据分析——统计学理论和方法

1、描述统计描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。集中趋势分析集中趋势分析主要靠平均数、中数、众数等统计指标来表示数据的集中趋势。例如被试的平均成绩多少?是正偏分布还是负偏分布?离中趋势分析离中趋势分析主要靠全距、四分差、平均差、方差(协方差:用来度量两个随机变量关系的统计量)、标准差等统计指标来研究数据的离中趋势。例如,我们想知道两个教学班的语

2021-10-12 14:37:20 2268

原创 Python实现八大经典排序算法

1、插入排序插入排序的基本操作就是将一个数据插入到已经排好序的有序数据中,从而得到一个新的、个数加一的有序数据,算法适用于少量数据的排序,时间复杂度为O(n^2)。是稳定的排序方法。插入算法把要排序的数组分成两部分:第一部分包含了这个数组的所有元素,但将最后一个元素除外(让数组多一个空间才有插入的位置),而第二部分就只包含这一个元素(即待插入元素)。在第一部分排序完成后,再将这个最后元素插入到已排好序的第一部分中。# 插入排序def insert_sort(lists): count

2021-10-12 11:51:43 130

原创 机器学习——支持向量机模型

在样本空间中,划分超平面可通过如下线性方程来描述其中为法向量,决定了超平面的方向;为位移项,决定了超平面与原点之间的距离。样本空间中任意点到超平面的距离为假设超平面能将样本正确分类,即对于,若,则有;若,则有。我们把使得当时,的样本点,以及使得当时,的样本点称为“支持向量”,两个异类支持向量到超平面的距离之和为它被称为“间隔”。欲找到具有“最大间隔”划分的超平面,也就是要找到能满足约束条件的参数和,使得最大,即显然,为了最大化间隔,仅需最大化,这等价于最小化。于是..

2021-10-11 14:19:06 2245

原创 机器学习——神经网络模型

在“M-P神经元模型”中,神经元接收到来自个其他神经元传递过来的输入信号,这些输入信号通过带权重的连接进行传递,神经元接收到的总输入值将与神经元的阈值进行比较,然后通过“激活函数”处理以产生神经元的输出。常用Sigmoid函数作为激活函数。把许多个这样的神经元按一定额层次结构连接起来,就得到了神经网络。事实上,从计算机科学的角度看,我们可以先不考虑神经网络是否真的模拟了生物神经网络,只需将一个神经网络视为包含了许多参数的数学模型,这个模型是若干个函数,例如相互嵌套而得。感知机由两层神经元组成,输入层

2021-10-11 12:37:14 2271

原创 机器学习——Softmax分类模型

Softmax分类—很多时候,在多分类问题中我们希望输出的是取到某个类别的概率,或者说,我们希望分值大的那个类别被经常取到,而分值较小的那一项也有一定可能性偶尔被取到。Softmax即是这样一种模型,最后的输出是每个类别被取到的概率值。假设有一个数组,表示中的第个元素,那么这个元素的Softmax值为:通常我们采用“交叉熵”它用来衡量两个取值为正的函数的相似性。对于两个完全相同的函数,它们的交叉熵为零;交叉熵越大,两个函数差异越大,反之,两个函数差异越大;对于概率分布或者概率密度函数,如

2021-10-11 11:18:54 2634

原创 机器学习——多分类学习模型

多分类学习—多分类问题的基本思路是“拆解法”,即将多分类任务拆为若干个二分类任务求解。常见的拆分策略由三种:“一对一(OvO)”、“一对其余(OvR)”和“多对多(MvM)”。OvO是把要划分的N个类别两两配对,从而产生N(N-1)/2个二分类任务,每一个二分类任务都有一个分类器,最终结果可通过投票产生:即把预测得最多得类别作为最终分类结果。OvR则是每次将一个类的样例作为正例、所有其他类的样例作为反例来训练N个分类器。若一个样例被多个分类器预测为正类,则通常考虑各分类器的预测置信度,选择置信度最大

2021-10-11 11:09:06 3796

原创 机器学习——逻辑回归模型

逻辑回归—考虑二分类任务,其输出标记,而线性回归模型产生的预测值是实值,于是,我们需将实值转换为0/1值。最理想的是“单位阶跃函数”,即若预测值大于零就判为正例,小于零则判为反例,等于零则可任意判别。但是单位阶跃函数不连续,不便于求导估计参数值。于是我们希望找到能在一定程度上近似单位阶跃函数的“替代函数”,并希望它单调可微。Sigmoid函数它将值转化为一个接近0或1的值,并且其输出在附近变化很陡。由此可以看出Sigmoid函数实际上是在用线性回归模型的预测结果去逼近真实标记,不仅能预测出“

2021-10-11 10:59:06 304

原创 机器学习——线性回归模型

线性回归—它试图学得我们通过“均方误差”,即最小化的过程,称为线性回归模型的最小二乘“参数估计” 。分别对和求导,得到,,然后令它们等于零可得到和最优解的闭式解,,其中为的均值。更一般的情形是在数据集中样本由个属性描述。此时我们试图学得,这称为“多元线性回归”。类似的,可利用最小二乘法的矩阵形式来对和进行计算得到它们最优解的闭式解。然而现实任务中我们可能解出多组和,从而得到多个模型,选择哪一个模型作为最终模型将由学习算法的归纳偏好决定,常见的做法是引入正则

2021-10-11 10:43:00 632

原创 机器学习——基本术语及常用模型评估方法

样本或数据集—一组记录的集合;示例—记录中关于一个事件或对象的描述;属性或特征—反映事件或对象在某方面的表现或性质的事项;属性值—属性上的取值;属性空间或样本空间或输入空间—属性张成的空间;特征向量—空间中的每一个点对应一个坐标向量,因此一个示例也称为一个特征向量;学习或训练—从数据中学得模型的过程;训练数据—训练过程中使用的数据;训练样本或训练示例—训练数据中的每一个样本;训练集—训练样本组成的集合;假设—学得模型对应的关于数据某种潜在的规律;真相或真实—这种潜

2021-10-11 10:25:10 689

原创 Word2Vec可视化展示

· Word2Vec简介 自然语言处理的核心概念之一是如何量化单词和表达式,以便能够在模型环境中使用它们。语言元素到数值表示的这种映射称为词嵌入。 Word2Vec是一个词嵌入过程。这个概念相对简单:通过一个句子一个句子地在语料库中循环去拟合一个模型,根据预先定义的窗口中的相邻单词预测当前单词。 为此,它使用了一个神经网络,但实际上最后我们并不使用预测的结果。一旦模型被保存,我们只保存隐藏层的权重。在我们将要使用的原始模型中,有300个权重,因此每个单词都由一...

2021-10-10 02:32:39 3542 6

原创 Pandas数据预处理常用函数

import pandas as pdimport numpy as npdf = pd.DataFrame({'姓名': ['宇智波带土', '波风水门', '野原琳', '旗木卡卡西', '宇智波斑', '波风水门', '旗木卡卡西'], '性别': ['男', '男', '女', '男', '男', '男', '男'], '年龄': ['20', '26', '18', '21', '89', '26', '21'],.

2021-10-09 16:24:01 424

原创 Pandas数据探索常用函数

这是一个学生各季度成绩总表(节选),各列说明如下。 name:学生的姓名,这列没有重复值,一个学生一行,即一条数据,共100条。 team:所在的团队、班级,这个数据会重复。 Q1~Q4:各个季度的成绩,可能会有重复值。 import pandas as pddf = pd.read_excel('./team.xlsx')dfdf.head() # 查看前5条,括号里可以写明你想看的条数df.tail() # 查看尾部5条df.samp..

2021-10-09 15:13:13 793

原创 利用Tensorflow实现基于矩阵乘法的余弦相似度大规模计算

#导入 tensorflow 模块,因部分用到1.x版本的Tensorflow,因此用如下方式导入import tensorflow.compat.v1 as tftf.disable_v2_behavior()import numpy as npimport pandas as pdimport mathfrom datetime import datetime# 定义余弦相似度函数,便于后续检验结果def cos_sim(a, b): a_norm = np.linalg.

2021-10-09 11:29:19 1638

原创 Pandas数据清洗常用函数

构造一个数据集,便于演示这些函数。import pandas as pddf = {'姓名': ['漩涡鸣人', '宇智波佐助', '旗木卡卡西', '春野樱', '宇智波鼬'], '性别': ['男', '男', 'men', 'women', '男'], '身份证': ['463895200003128433', '429475199912122345', '420934199110102311', '431085200005230122', '4209531995090

2021-10-08 16:55:03 974

原创 提取两个向量对应坐标不同时为零的坐标

import numpy as npA = np.array([1,3,0,0,5])B = np.array([2,0,0,4,3])nzA = A!=0nzB = B!=0nzAB = nzA | nzBnA = A[nzAB]nB = B[nzAB]nAnB

2021-10-08 12:41:14 127

2022跨年烟花源码_js

2022跨年烟花源码_js

2021-12-31

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除