数据挖掘|机器学习|深度学习
文章平均质量分 52
介绍数据获取、数据清洗、数据分析、数据挖掘、机器学习、深度学习等技术
真·skysys
萌即正义 ^ω^ ヾ(o◕∀◕)ノヾ ヽ(≧□≦)ノ ヾ(・ω・`。)
展开
-
机器学习算法基础学习 # 集成学习之随机森林
【代码】机器学习算法基础学习 集成学习之随机森林。原创 2023-07-05 07:38:17 · 481 阅读 · 0 评论 -
图神经网络 # GNN基础(干货版)
图神经网络学习指南与干货笔记原创 2022-12-19 00:17:10 · 423 阅读 · 0 评论 -
图拉普拉斯矩阵
在线性代数里,正定矩阵 (positive definite matrix) 有时会简称为正定阵。广义定义:设M是n阶方阵,如果对任何非零向量z,都有zTMz>0,则称M为正定矩阵。狭义定义:一个n阶的M是正定的的条件是当且仅当对于所有的非零实系数向量z,都有zTMz>0。A=CTC。原创 2022-12-14 14:33:00 · 1638 阅读 · 0 评论 -
NMS非极大值抑制的原理及实现
非极大值抑制(NMS)即抑制不是极大值的元素,搜索局部的极大值。这个局部代表的是一个邻域(邻域有两个参数可变,一是邻域的维数,二是邻域的大小)。例如在行人检测中,滑动窗口提取特征,经分类器分类识别后,每个窗口都会得到一个score。但是滑动窗口会导致很多窗口与其他窗口存在包含或者大部分交叉的情况。这时就需要用到NMS来选取那些邻域里score最高(行人的概率最大),抑制那些score较低的窗口。算法流程:1.设定阈值,找到最大分类概率的检测框F,从它开始,其他框中与F重复度IOU > 阈值:舍去,标记并保原创 2022-12-04 22:50:23 · 427 阅读 · 0 评论 -
softmax输出后根据概率分布抽样选取action 代码实现 加权随机算法
def pdsample(self, action): n = len(action) pre = [0] * n pre[0] = action[0] for i in range(1,n): pre[i] = pre[i-1] + action[i] rd = np.random.rand(1) # 均匀分布 for i in range(n): if ...原创 2022-03-10 02:21:22 · 542 阅读 · 0 评论 -
梯度消失与归一化/标准化
神经网络激活函数选用sigmoid或者tanh的时候,当输入很大,可能会遇到梯度消失情况:途中虚线外的区域我们叫: saturation area 饱和区域。处理方式有两种:对神经网络输入做归一化/标准化处理。具体差别在后文展开。如果不这样做,我们可以通过修改loss函数,增加一个惩罚值:pre-activation penaltysuch as klk_lkl是权重,根据情况进行调整。The large pre-activation value of the neurons would原创 2022-03-10 02:16:41 · 863 阅读 · 0 评论 -
TensorFlow # 调试中间结果,打印神经网络中间层
TensorFlow直接print Tensor拿到的是结构不是真实值。暂时没有想到好方法,如果读者有更好的方法也请留言给博主,共同学习,谢谢。对于线性程序:import tensorflow as tfimport tensorflow.contrib.layers as layersimport numpy as npimport osos.environ["TF_CPP_MIN_LOG_LEVEL"]='3' # 去掉TF warningsobs = np.array([-3.456原创 2022-03-07 19:24:48 · 1530 阅读 · 0 评论 -
TensorFlow # Scope,Name,Reuse参数意义及变量重用机制
scope参数用途tensorflow的执行过程:1)定义Graphs,包括Variables和Operations 。2)创建session,运行Graphs在定义Variables的时候,Scope相当于C++中的命名空间,可以用Scope来避免命名冲突,以及方便重用Variables。with tf.variable_scope(scope, reuse=reuse): out = input out = layers.fully_connected(out, num_outpu原创 2022-03-06 15:52:40 · 898 阅读 · 0 评论 -
pandas groupby重置索引/不要使用分类值作为索引
方法一:as_index=Falseq1 = q1[['market','volume24h','updateTime']].groupby(['market','updateTime'], as_index=False).sum()方法二:reset_index()q1 = q1[['market','volume24h','updateTime']].groupby(['market','updateTime']).sum()q1 = q1.reset_index()如果不reset原创 2022-01-21 09:47:43 · 1778 阅读 · 0 评论 -
Python # 金十数据数字货币新闻爬取脚本
声明:仅供研究使用,请不要未经对方授权进行其他用途。使用者自行承担相应责任。import urllib.request as urlrequestimport jsonAttention:(1)jin10网站开发中api可能会发生变动,本notebook实现时间是2022-01-20,后期如果使用失败请检查是否为接口变动。(2)!! 由于接口限制????,每次flash只能拿到50条数据,目前没有发现过滤【重要程度】的参数,应该是前端页面拿到数据后过滤的。所以这里会导致一个问题就是时间区间给的原创 2022-01-20 11:48:09 · 13057 阅读 · 4 评论 -
Python处理Google Ads 关键词数据绘制词云图
先看一下效果。使用的颜色值是#4628A0,词云绘制工具是wordart。主要是需要清洗数据。需求描述需要分析google上关键词数据,google trends的数据是相对数据,所以这里采用了google ads。这是从上面导出的数据。清洗后的数据如下:data = pd.read_csv("~/Downloads/keywordstats2.csv",skiprows=2,encoding="utf-8")data = data[['Keyword','Avg. monthly sear原创 2022-01-18 12:05:18 · 600 阅读 · 0 评论 -
Python处理Google Trends数据(根据发达国家和发展中国家)
import pandas as pdimport numpy as np2021年发达国家名单developed = ['英国', '爱尔兰', '法国', '荷兰', '比利时', '卢森堡', '德国', '奥地利', '瑞士', '挪威', '冰岛', '丹麦', '瑞典', '芬兰', '意大利', '西班牙', '葡萄牙', '希腊', '斯洛文尼亚', '捷克', '斯洛伐克', '马耳他', '塞浦路斯', '美国', '加原创 2022-01-18 10:17:16 · 754 阅读 · 0 评论 -
GD(梯度下降)和SGD(随机梯度下降)
GD:gradient descentSGD:Stochastic Gradient Descent相同点在GD和SGD中,都会在每次迭代中更新模型的参数,使得代价函数变小。不同点在GD中,每次迭代都要用到全部训练数据。假设线性模型(θ\thetaθ是参数)h(x)=∑i=1nθixi=θTxh(x)=\sum_{i=1}^n\theta_ix_i=\theta^Txh(x)=i=1∑nθixi=θTx代价函数:J(θ)=12∑i=1m(hθ(x(i))−y(i))2J(\theta转载 2021-11-26 01:40:38 · 1766 阅读 · 0 评论 -
GLUE部分基准数据集介绍:RTE、MRPC、SST-2、QNLI、MNLI、QQP
自然语言处理(NLP)主要包括自然语言理解(NLU)和自然语言生成(NLG)。为了让NLU任务发挥最大的作用,来自纽约大学、华盛顿大学等机构创建了一个多任务的自然语言理解基准和分析平台,也就是GLUE(General Language Understanding Evaluation)。GLUE包含九项NLU任务,语言均为英语。GLUE九项任务涉及到自然语言推断、文本蕴含、情感分析、语义相似等多个任务。像BERT、XLNet、RoBERTa、ERINE、T5等知名模型都会在此基准上进行测试。目前,大家要把原创 2021-04-15 19:21:06 · 19553 阅读 · 1 评论 -
Python UnicodeEncodeError: ‘gbk‘ codec can‘t encode character 解决方法
在windows下面,新文件的默认编码是gbk,但我们写的数据是utf-8编码的所以需要指定编码…f.write(test_texts[i] + '\n')改为:f.write(test_texts[i] + '\n',encoding='utf-8')原创 2020-11-26 11:08:38 · 1967 阅读 · 0 评论 -
Your CPU supports instructions that this TensorFlow binary was not compiled to use: AVX AVX2
这个不算报错。原创 2020-11-26 04:43:46 · 500 阅读 · 0 评论 -
OSError: [E050] Can‘t find model ‘en_core_web_sm‘. It doesn‘t seem to be a shortcut link, a Python p
OSError: [E050] Can’t find model ‘en_core_web_sm’. It doesn’t seem to be a shortcut link, a Python package or a valid path to a data directory.解决方法:python -m spacy download en如果报这个错:requests.exceptions.ConnectionError: HTTPSConnectionPool(host=‘raw.gi原创 2020-11-26 04:39:23 · 4879 阅读 · 0 评论 -
[Paper]Cardiologist-Level Arrhythmia Detection with Convolutional Neural Networks
Cardiologist-Level Arrhythmia Detection with Convolutional Neural Networks基于卷积神经网络的心脏科医生级别的心律失常检测Abstract摘要We develop an algorithm which exceeds the performance of board certified cardiologists in...翻译 2019-12-29 20:37:25 · 985 阅读 · 0 评论 -
[Paper]Application of deep convolutional neural network for automated detection of myocardial...
*侵删*限于博主英语水平,若翻译不当之处恳请批评指正~3QABSTRACTThe electrocardiogram (ECG) is a useful diagnostic tool to diagnose various cardiovascular diseases (CVDs) such as myocardial infarction (MI).The ECG records th...翻译 2019-10-28 16:16:29 · 1235 阅读 · 4 评论 -
自然语言处理 # 中文分词技术 概述
定义中文分词(Chinese Word Segmentation)就是将连续的字序列按照一定的规范重新组合成词序列的过程。Ques:为什么要分词? Ans: 词是最小的能够独立运用的语言单位Ques:什么是独立运用呢?Ans:它可以解释为“单独做句法成分或单独起语法作用”1基本信息在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界...原创 2019-06-28 17:08:43 · 2707 阅读 · 0 评论 -
TensorFlow:实战Google深度学习框架 # LeNet-5模型
与前文link~对比mnist_inference.pyimport tensorflow as tfINPUT_NODE = 784OUTPUT_NODE = 10IMAGE_SIZE = 28NUM_CHANNELS = 1NUM_LABELS = 10CONV1_DEEP = 32CONV1_SIZE = 5CONV2_DEEP = 64CONV2_SIZE ...原创 2020-01-07 16:17:44 · 265 阅读 · 1 评论 -
人工智能实践:Tensorflow笔记 # 10 卷积神经网络 LeNet-5
LeNet 神经网络是 Yann LeCun 等人在 1998 年提出的,该神经网络充分考虑图像的相关性。Lenet 神经网络结构为:①输入为 32∗32∗132*32*132∗32∗1 的图片大小,为单通道的输入;②进行卷积,卷积核大小为 5∗5∗15*5*15∗5∗1,个数为 6,步长为 1,非全零填充模式;③将卷积结果通过非线性激活函数;④进行池化,池化大小为 2∗22*22∗2,...原创 2020-01-07 00:22:55 · 297 阅读 · 0 评论 -
人工智能实践:Tensorflow笔记 # 9 卷积神经网络基础
全连接 NN:每个神经元与前后相邻层的每一个神经元都有连接关系,输入是特征,输出为预测的结果参数个数:∑\sum∑(前层 × 后层 + 后层)一张分辨率仅仅是 28x28 的黑白图像,就有近 40 万个待优化的参数。现实生活中高分辨率的彩色图像,像素点更多,且为红绿蓝三通道信息。待优化的参数过多,容易导致模型过拟合。为避免这种现象,实际应用中一般不会将原始图片直接喂入全连接网络。在实际应...原创 2020-01-06 18:26:17 · 367 阅读 · 0 评论 -
TensorFlow:实战Google深度学习框架 # chapt.5 TensorFlow最佳实践样例程序
出自《TensorFlow:实战Google深度学习框架》(第二版)第五章5.5节样例(与之前发的博文中的程序click_here~进行对比学习)mnist_inference.py - 定义前向传播的过程以及神经网络中的参数import tensorflow as tfINPUT_NODE = 784OUTPUT_NODE = 10LAYER1_NODE = 500def ge...原创 2020-01-05 18:26:57 · 238 阅读 · 0 评论 -
TypeError: softmax() got an unexpected keyword argument 'axis'
keras版本高了的问题进入keras底层源码把axis改成dim就可以了。或者降低keras版本,但是还是会有奇奇怪怪的问题,所以这里选择改源码。原创 2020-01-04 22:55:33 · 645 阅读 · 0 评论 -
人工智能实践:Tensorflow笔记 # 8 全连接神经网络实践 (手写数字识别)
mnist_forward.pyimport tensorflow as tfINPUT_NODE = 784OUTPUT_NODE = 10LAYER1_NODE = 500def get_weight(shape,regularizer): w = tf.Variable(tf.truncated_normal(shape,stddev=0.1)) if regu...原创 2020-01-03 21:32:29 · 382 阅读 · 0 评论 -
人工智能实践:Tensorflow笔记 # 7 全连接神经网络基础
mnist 数据集:包含 7 万张黑底白字手写数字图片,其中 55000 张为训练集,5000 张为验证集,10000 张为测试集。每张图片大小为 28*28 像素,图片中纯黑色像素值为 0,纯白色像素值为 1。数据集的标签是长度为 10 的一维数组,数组中每个元素索引号表示对应数字出现的概率。在将 mnist 数据集作为输入喂入神经网络时,需先将数据集中每张图片变为长度784 一维数组,将该数...原创 2020-01-03 17:32:03 · 286 阅读 · 0 评论 -
人工智能实践:Tensorflow笔记 # 6 神经网络优化:正则化
example:#coding:utf-8import tensorflow as tfimport numpy as npimport matplotlib.pyplot as pltBATCH_SIZE = 30seed = 2rdm = np.random.RandomState(seed)X = rdm.randn(300,2)Y_ = [int(x0*x0+x...原创 2020-01-03 12:46:11 · 199 阅读 · 0 评论 -
人工智能实践:Tensorflow笔记 # 5 神经网络优化:滑动平均
#coding:utf-8import osos.environ['TF_CPP_MIN_LOG_LEVEL']='2'import tensorflow as tf#待优化的参数w1 = tf.Variable(0,dtype=tf.float32)#定义NN的迭代轮数global_step = tf.Variable(0,trainable=False)#实例化滑动平均类...原创 2019-11-16 19:47:58 · 213 阅读 · 0 评论 -
人工智能实践:Tensorflow笔记 # 4 神经网络优化:学习率
#coding:utf-8import osos.environ['TF_CPP_MIN_LOG_LEVEL']='2'import tensorflow as tfimport numpy as npw = tf.Variable(tf.constant(5,dtype=tf.float32))loss = tf.square(w+1)train_step = tf.train...原创 2019-11-15 19:25:29 · 304 阅读 · 0 评论 -
人工智能实践:Tensorflow笔记 # 3 神经网络优化:损失函数
#coding:utf-8import osos.environ['TF_CPP_MIN_LOG_LEVEL']='2'import tensorflow as tfimport numpy as npBATCH_SIZE = 8seed = 23455rdm = np.random.RandomState(seed)X = rdm.rand(32,2)Y_ = [[x1+x...原创 2019-11-15 12:02:29 · 237 阅读 · 0 评论 -
人工智能实践:Tensorflow笔记 # 2 后向传播
#coding:utf-8import osos.environ['TF_CPP_MIN_LOG_LEVEL']='2'import tensorflow as tfimport numpy as npBATCH_SIZE = 8seed = 23455rng = np.random.RandomState(seed)X = rng.rand(32,2)Y = [[int(...原创 2019-11-14 15:43:37 · 248 阅读 · 0 评论 -
人工智能实践:Tensorflow笔记 # 1 前向传播
import osos.environ['TF_CPP_MIN_LOG_LEVEL']='2'这段代码是为了消除警告(否则会有一堆奇奇怪怪的输出,我有点强迫症…两层简单的全连接神经网络#coding:utf-8import osos.environ['TF_CPP_MIN_LOG_LEVEL']='2'import tensorflow as tf#定义输入和参数x = ...原创 2019-11-14 12:30:14 · 241 阅读 · 0 评论 -
Tensorflow 消除警告
import osos.environ['TF_CPP_MIN_LOG_LEVEL']='2'以上代码用于忽略级别 2 及以下的消息(级别 1 是提示,级别 2 是警告,级别 3 是错误)。原创 2019-09-25 22:14:19 · 1080 阅读 · 0 评论 -
第一个机器学习项目: Iris Flower
http://sklearn.apachecn.org/#/docs/2 Sklearn汉化文档from pandas import read_csvfrom pandas.plotting import scatter_matrixfrom matplotlib import pyplotfrom sklearn.model_selection import train_test_sp...原创 2019-04-18 20:47:43 · 680 阅读 · 0 评论 -
机器学习,深度学习等概念区别【转】
1、人工智能->机器学习->深度学习 注:->包含关系2、机器学习领域: 模式识别=机器学习 数据挖掘=机器学习+数据库 统计学习=机器学习 计算机视觉=图像处理+机器学习 语音识别=语音处理+机器学习 自然语言处理=文字处理+机器学习 (搜索引擎)3、机器学习算转载 2016-09-15 17:33:45 · 4792 阅读 · 1 评论 -
Python数据挖掘 # 5.流水线在预处理中的应用
0 准备这里接着 Python数据挖掘 #存用scikit-learn估计器分类 [实验:Ionosphere 分类](近邻算法)这篇文章实验继续做。1 预处理示例先对Ionosphere数据集做些破坏。x_broken = np.array(x)x_broken[:,::2] /= 10estimator = KNeighborsClassifier()original_scor...原创 2019-07-12 12:53:45 · 413 阅读 · 0 评论 -
Python数据挖掘 # 4.用scikit-learn估计器分类 [实验:Ionosphere 分类](近邻算法)
0 实验环境python 3.7.0matplotlibscikit-learn1 预备知识估计器(Estimator):用于分类、聚类和回归分析。转换器(Transformer):用于数据预处理和数据转换。流水线(Pipeline):组合数据挖掘流程,便于再次使用。欧式距离:连接两点的线段的长度(特征向量长度平方和的平方根) 某些特征取值巨大(离群点)时效果会很差。 稀...原创 2019-07-10 17:16:34 · 954 阅读 · 0 评论 -
Python数据挖掘 # 3.分类 [实验:Iris植物分类] (OneR算法)
0 实验环境python 3.7.0scikit-learn1 准备数据集scikit-learn内置了该数据集,故只需要安装了scikit-learn包即可。2 导入数据import numpy as npfrom sklearn.datasets import load_irisdataset = load_iris()x = dataset.datay = datas...原创 2019-07-09 20:18:11 · 1261 阅读 · 0 评论 -
Python数据挖掘 # 2.亲和性分析 [实验:商品推荐]
0 前置要求python编程基础、numpy模块基本操作。1 定义亲和性分析指的是根据样本个体之间的相似度来确定它们之间关系的亲疏2 应用向网站用户提供多样性化的服务或投放定向广告为了向用户推荐电影或商品,而卖给他们一些与之相关的商品3 实例我们通过计算购买不同商品之间的相关性来分析商品之间的亲和性,比如说某个用户“在购买苹果之后,再购买来香蕉”,那么对于该用户来说,“...原创 2019-07-09 14:36:11 · 1567 阅读 · 0 评论