自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

造出高达般的人工智能机器人

自然语言处理、推荐系统

  • 博客(55)
  • 资源 (2)
  • 收藏
  • 关注

原创 【Linux】ssh免密登陆的原理和配置步骤

【代码】【Linux】ssh免密登陆的原理和配置步骤。

2023-03-04 18:28:35 277

原创 【交换机路由器】不同vlan间转发组播数据

1. 实验需求   现在有一台处于vlan10的服务器,其能输出2组不同的组播数据,分别为S1和S2。组播数据S1的接收者分布在vlan20、vlan30。组播数据S2的接受者分布在vlan20和vlan40。现在仅有一台不支持组播路由协议PIM和IGMP的交换机,如何使得处于不同vlan的接收者收到其所需要的组播数据?2. 配置思路   正常情况下,由于交换机的mac表没有目的IP地址为组播地址的项,故将组播报文在该网段进行群发(泛洪),使得处于同一个vlan的用户都能收到该组播报文。   针对

2022-05-17 18:33:45 3666 2

原创 【论文解读】Mining Dual Emotion for Fake News Detection

本文主要内容:本文主要是对以下论文进行解读《Xueyao Zhang, Juan Cao, Xirong Li, Qiang Sheng, Lei Zhong, and Kai Shu. 2021. Mining Dual Emotion for Fake News Detection. In Proceedings of the Web Conference 2021 (WWW '21). Association for Computing Machinery, New York, NY, USA

2021-06-14 09:13:01 1271 1

原创 【代码解读】Practice on Long Sequential User Behavior Modeling for Click-Through Rate Prediction

本文主要内容本文主要是对以下论文,作者提供的代码进行注释解读:《Pi, Q., Bian, W., Zhou, G., Zhu, X., & Gai, K. (2019, July). Practice on long sequential user behavior modeling for click-through rate prediction. In Proceedings of the 25th ACM SIGKDD International Conference on Kno

2020-07-22 21:26:52 548

原创 《MySQL必知必会》代码总结

本文主要总结了Ben Forta著的《MySQL必知必会》的代码,可以用作初学者快速查找代码。检索列中数据的种类数# 假设products表中列vend_id存在很多重复的数据select vend_id from products;/*输出* vend_id* 1001* 1001* 1001* 1002* 1002* 1003* 1003* 1004* 1004*/# 使用DISTINCT关键字,返回该列数据的集合select distinct vend_id f

2020-07-03 10:23:59 370

原创 【自然语言处理】文本信息提取器-CNN

本文主要内容简略介绍卷积神经网络(CNN, Convolutional Neural Network)处理文本信息的过程使用CNN进行文本分类任务,并对代码进行注释本文代码【https://github.com/540117253/Chinese-Text-Classification 】一、CNN概述图1 CNN文本编码器  CNN文本编码器的结构如图1所示。在第一层,词映射函数f:M→Rdf:M \rightarrow R^{d}f:M→Rd将评论的每个单词映射为ddd维向量,然后将给

2020-06-09 10:55:12 3180 1

原创 【自然语言处理】文本信息提取器-RNN

本文主要内容简略介绍循环神经网络(RNN, Recurrent Neural Network),其中涉及单层RNN结构、多层RNN结构、双向RNN结构、双向RNN+Attention结构使用RNN进行文本分类任务,并给出模型的定义代码本文代码【 https://github.com/540117253/Chinese-Text-Classification 】一、RNN概述  循环神经网络RNN是特指一类专用于处理序列数据的模型,目前主流的RNN单元有LSTM(Long Short-Term

2020-06-09 10:32:56 1603

原创 【画图代码】matplotlib - 词向量或类向量散点图

思路:词向量:将词向量中值最大的维度的下标作为该词向量的标签。采用t-SNE对将词向量压缩到2维空间,然后画成散点图。点的颜色就是该词向量的标签。类向量类向量指的是在分类任务中,样本在输入softmax之前的向量。直接采用t-SNE对将类向量压缩到2维空间,然后画出散点图。点的颜色就是该类向量的标签。例子:from matplotlib.backends.backend_pdf import PdfPagesfrom sklearn.manifold import TSNE

2020-05-24 14:26:24 1918

原创 【代码解读】Graph Convolutional Networks for Text Classification

本文主要内容:本文主要是对以下论文,作者提供的代码进行注释解读:《Liang Yao, Chengsheng Mao, Yuan Luo. “Graph Convolutional Networks for Text Classification.” In 33rd AAAI Conference on Artificial Intelligence (AAAI-19), 7370-7...

2020-04-25 22:18:08 3317 10

原创 【竞赛解读】2019-CCF BDCI 车辆销量预测

  本文章主要根据该比赛冠军的开源代码进行梳理,总结了冠军的两个解题方案,并对代码进行详细的注释。1. 赛题出处冠军报告【https://zhuanlan.zhihu.com/p/98926322 】代码 【https://github.com/cxq80803716/2019-CCF-BDCI-Car_sales/tree/master/fusaicar 】2. 赛题介绍2.1 数据集...

2020-04-15 17:17:01 1277

原创 【环境配置】TensorFlow_Serving 入门例子

内容提要本文主要按照以下几点展开:TensorFlow_Serving的安装TensorFlow模型的训练与保存启动TensorFlow_Serving加载模型来提供服务编写客户端,调用gRPC接口访问模型运行环境:Tensorflow-1.13.1(可以比这更低的版本)Python-3.5整体的项目代码:GitHub传送门1. 安装TensorFlow_Serv...

2019-10-04 14:43:46 426

原创 【环境配置】Github创建仓库,并增删改查

1. 配置Gihtub账号的全局SSH公钥为了使得本地文件通过命令行能传输文件到你的Github账号,需要在Github账号中指定SSH所使用的公钥,这里我使用的是rsa的公钥。步骤如下:ssh-keygen -t rsa # 一路回车,生成的id_rsa.pub文件在~/.ssh/文件夹里面。点击Github右上角你账号的Settings -> SSH and GPG ke...

2019-09-23 21:38:24 205

原创 【环境配置】JAVA调用Tensorflow模型

1. 测试通过的环境名称版本Windowswin10_64位IDEEclipse 2018-12Tensorflow1.6.0JDK1.8 (Eclipse 2018-12自带)2. JAVA版本的Tensorflow测试代码测试代码项目文件百度网盘下载传送门import org.tensorflow.Graph;import org.t...

2019-08-14 11:12:44 2803

原创 【环境配置】反向SSH——家中电脑连接校园内网服务器

1. 需求描述1.1 具体情境实验室有一台校园内网GPU服务器,校园内网的特点是只允许内网机器主动访问外网机器,而不允许外网机器主动访问内网机器。现在需要使用家中的电脑(无公网IP的机器,其可能是另一个单位内网或家用路由器分配IP的机器),通过ssh控制校园内网的GPU服务器。1.2 实现思路假设校园内网的GPU服务器为机器A,在家中的电脑为机器C,具有公网IP的云服务器为B(公网IP的...

2019-07-10 20:11:53 5190 3

原创 【环境配置】Ubuntu 18.04.2 LTS + RTX2080 + tensorflow 1.13.1安装步骤

系统与软件版本:名称版本系统Ubuntu 18.04.2 LTS显卡RTX 2080显卡驱动410CUDA10.0cuDNNcuDNN v7.5.0 for CUDAanacondapython 3.7的linux版本tensorflowtensorflow-gpu 1.13.11. 安装RTX 2080 显卡驱动打...

2019-03-14 21:49:57 1736 2

原创 【Scikit-Learn】使用k-均值对文档进行聚类分析

本文使用的数据集来自mlcomp.org上的20news-18828,下载地址为:mlcomp.org/datasets/379我们只对sci.crypt、sci.electronices、sci.med和sci.space这4个子目录的数据进行k-均值聚类分析。1. 读入数据%matplotlib inlineimport matplotlib.pyplot as plt...

2018-09-03 12:08:28 1095 1

原创 【Scikit-Learn】K-均值算法

1. 生成数据from sklearn.datasets import make_blobs# 生成特征数为2 , 样本个数为200 , 4个聚类中心的数据点X, y = make_blobs(n_samples=200, n_features=2, centers=4, cl...

2018-09-02 20:42:05 358

原创 【Scikit-Learn】PCA人脸识别

本文首先给出使用PCA降维及恢复数据的示例代码。通过实验证明了直接使用SVM对人脸数据集进行分类是行不通的。然后分别对比不同 k(number of PCA components) 值的情况下,降维前后图片的差异。最后使用降维后的图片进行SVM分类,分类准确率令人非常满意。1. PCA示例代码# 待降维的矩阵 AA = np.array([[3, 2000], ...

2018-09-02 11:42:05 1612

原创 【Scikit-Learn】朴素贝叶斯文档分类

本文使用的数据集来自mlcomp.org上的20news-18828,下载地址为:mlcomp.org/datasets/3791. 读入数据datasets/mlcomp/379/train目录下放的是语料库,其中包含20个子目录,每个子目录的名字表示的是文档的类别,子目录下包含这种类别的所有文档。load_files()函数会从这个目录里把所有的文档都读入内存,并且自动根据所在...

2018-09-01 19:32:03 1167 1

原创 【Scikit-Learn】SVM检测乳腺癌

分别使用SVC类的高斯核函数及多项式核函数对乳腺癌数据集进行分类,并绘制学习曲线。最后使用多项式特征,并使用LinearSVC进行处理。(针对多项式特征,LinearSVC类比SCV类速度更快)。1. 载入数据%matplotlib inlineimport matplotlib.pyplot as pltimport numpy as np# 载入数据from skle...

2018-09-01 15:52:05 2702 6

原创 【Scikit-Learn】绘画SVM分割超平面

1. 等高线示例import numpy as npimport pandas as pdimport matplotlib.pyplot as plt# 计算x,y坐标对应的高度值def f(x, y): return (1-x/2+x**5+y**3) * np.exp(-x**2-y**2)# 生成x,y的数据n = 256x = np.linspace(-...

2018-09-01 15:47:17 8463 5

原创 【Scikit-Learn】SVM示意图

%matplotlib inlineimport matplotlib.pyplot as pltimport numpy as npclass1 = np.array([[1, 1], [1, 3], [2, 1], [1, 2], [2, 2]])class2 = np.array([[4, 4], [5, 5], [5, 4], [5, 3], [4, 5], [6, 4]])...

2018-09-01 15:45:19 1010

原创 【Scikit-Learn】决策树预测坦坦尼克号幸存者

数据集下载地址为:www.kaggle.com/c/titanic.本文通过泰坦尼克号数据集及使用决策树模型来熟悉sklearn相关类的使用,并给出以下例子: 1. 首先将数据集进行数据清洗,然后训练决策树模型并可视化该决策树。 2. 分析不同深度、不同阈值对决策树的影响。 3. 使用GridSearchCV类来选择决策树的最佳参数1. 数据预处理这里最值得学习的是,乘客登船...

2018-09-01 11:36:45 866

原创 【Scikit-Learn】信息熵、基尼不纯度图像

%matplotlib inlineimport matplotlib.pyplot as pltimport numpy as npdef entropy(px): return - (px * np.log2(px))x = np.linspace(0.01, 1, 100)plt.figure(figsize=(5, 3), dpi=200)plt.title('$E...

2018-09-01 11:32:05 807

原创 【Scikit-Learn】逻辑回归乳腺癌检测

1. 载入数据乳腺癌数据共有569个样本,每个样本有30个特征,其中357个阳性(y=1)样本,212个阴性(y=0)样本。%matplotlib inlineimport matplotlib.pyplot as pltimport numpy as np# 载入数据from sklearn.datasets import load_breast_cancercance...

2018-08-31 20:37:43 2379 2

原创 【Scikit-Learn】绘画逻辑回归成本函数图象、L1、L2范数图象

%matplotlib inlineimport matplotlib.pyplot as pltimport numpy as np1. 逻辑回归成本函数图象def f_1(x): return -np.log(x)def f_0(x): return -np.log(1 - x)X = np.linspace(0.01, 0.99, 100)f =...

2018-08-31 20:36:13 1141

原创 【Scikit-Learn】k-近邻算法实例

现在我们有一个糖尿病数据集,共有768个样本、8个特征。其中最后列outcome为标记值(0表示没有糖尿病,1表示有糖尿病)。本文首先通过交叉验证来选择模型从3种模型中选择出最优模型KNN,然后绘画出KNN的学习曲线。由于该糖尿病数据集含有8个特征,并不能进行可视化。因此本文选择相关性最大的两个特征进行可视化。1.读入数据集%matplotlib inlineimport...

2018-08-31 13:58:42 911

原创 【Scikit-Learn】k-近邻算法回归拟合

%matplotlib inlineimport matplotlib.pyplot as pltimport numpy as np# 生成训练样本n_dots = 40X = 5 * np.random.rand(n_dots, 1)y = np.cos(X).ravel() # ravel()用作将数据展开成一维# 添加一些噪声y += 0.2 * np.random.r...

2018-08-31 13:56:05 735

原创 【Scikit-Learn】k-近邻算法分类

%matplotlib inlineimport matplotlib.pyplot as pltimport numpy as npfrom sklearn.datasets.samples_generator import make_blobs# 生成数据centers = [[-2, 2], [2, 2], [0, 4]]# 生成以centers为中心,以标准差cluster_...

2018-08-31 13:55:14 454

原创 【Scikit-Learn】多项式拟合

%matplotlib inlineimport matplotlib.pyplot as pltimport numpy as npn_dots = 20x = np.linspace(0, 1, n_dots) # [0, 1] 之间创建 20 个点y = np.sqrt(x) + 0.2*np.random.rand(n_dots) - 0....

2018-08-28 13:08:46 1790

原创 【Scikit-Learn】绘制学习曲线

首先生成相应的数据集(X,Y),然后用线性回归模型去拟合数据集。这里使用sklearn中的学习曲线函数learning_curve,对于回归问题返回的score是MSE(对于分类问题,则返回的score是准确率)。这里的Y=np.sqrt(X),使用一次多项式特征会欠拟合,使用3次多项式特征恰好拟合,使用10次多项式特征会过拟合,拟合效果如绘制的学习曲线所示。%matplotlib i...

2018-08-28 13:06:40 3314 1

原创 【Scikit-Learn】SVM手写数据集

%matplotlib inlineimport matplotlib.pyplot as pltimport numpy as npfrom sklearn import datasetsdigits = datasets.load_digits() # 加载数据# 把数据所代表的图片显示出来images_and_labels = list(zip(digits.images, ...

2018-08-27 13:47:26 3781 2

原创 【Keras】IMDB电影情感分析(三种神经网络)

IMDB电影数据集含有50000个电影评论,分为正反两类。train包中包含25000个正反类评论用于训练,test中包含25000个评论用于测试。在keras提供的IMDB数据集中,word被映射为一个大于0的整数,表示该单词出现频率的排名,其中0用于表示unknown word。下面首先对IMDB数据集进行基本的统计分析,然后分别使用全连接、卷积、LSTM三种神经网络分别来进行情感分析...

2018-08-27 10:39:34 6671

原创 【Keras】word2vec_cbow

本代码首先将语料文件alice_in_wonderland.txt以句子为单位进行拆分,然后进行序列化(语料下载地址)。对每个句子提取出3个连续单词的tuple=(left,center,right),cbow(假设词窗大小为3)的目标是从left、right预测出center。因此对于每个tuple=(left,center,right)的数据,将left、center、right分别放...

2018-08-14 22:01:11 955 1

原创 【Keras】word2vec_skipgram

本代码首先将语料文件alice_in_wonderland.txt以句子为单位进行拆分,然后进行序列化(语料下载地址)。对每个句子提取出3个连续单词组成一个tuple=(left,center,right),skipgram模型(假设词窗大小为3)的目标是从center预测出left、从center预测出right。因此对于每个tuple=(left,center,right)的数据,整理...

2018-08-14 21:56:36 1669

转载 【Keras】加载预训练词向量矩阵及文本数据序列化

from __future__ import print_functionimport osimport sysimport numpy as npfrom keras.preprocessing.text import Tokenizerfrom keras.preprocessing.sequence import pad_sequencesfrom keras.utils imp...

2018-08-12 23:52:12 2263

原创 【TensorFlow】sparse_softmax_cross_entropy_with_logits 和softmax_cross_entropy_with_logits选用技巧

一、sparse_softmax_cross_entropy_with_logits(logits, labels, name=None)logits:   假设神经网络最后一层的输出为长度为v的向量,如果有batch的话,则logits大小就是[batchsize,v]labels:   比如两个样本的真实标签分别为2和0,则lables是向量[2,0]示例:# 假设词汇表的...

2018-07-14 12:37:13 648 2

转载 【TensorFlow】LSTM 预测正弦函数

import numpy as npimport tensorflow as tfimport matplotlib.pyplot as plt1. 定义RNN的参数。HIDDEN_SIZE = 30 # LSTM中隐藏节点的个数。NUM_LAYERS = 2 #...

2018-07-02 21:58:53 1162

原创 【R语言】kaggle-CNN手写数据集识别

一、Kaggle的任务描述kaggle-CNN手写数据集下载 网址  MNIST(“国家标准与技术研究院修改版”)是计算机视觉领域的“hello world”数据集。训练集 (training set) 由来自 250 个不同人手写的数字构成, 其中 50% 是高中学生, 50% 来自人口普查局 (the Census Bureau) 的工作人员. 测试集(test set) 也是同样比例...

2018-06-10 21:14:33 4208

原创 【Hadoop】Hadoop+MapReduce 入门概述

第一部分 Hadoop1.Hadoop项目的由来    起源于一个开源的网络搜索引擎项目ApacheNutch,借鉴GFS,实现了一个开源的实现HDFS,05年nutch上实现了一个mapreduce系统,完成了所有主要算法的mapreduce+HDFS移植。2.HDFS的体系结构    采用了主从(Master/Slave)结构模型,一个HDFS集群是由一个NameNod...

2018-06-04 12:23:36 388

白帽子讲WEB安全

可以帮助新人大致了解网络黑客技术和网络安全的知识,全书主要是以科普文的方式叙述,并没有过多的专业知识。

2014-10-24

程序设计抽象思想-C语言描述.pdf

此书写好很多帮助新手理解C语言这种基层语言的思想与观念,帮助新手在c语言的理解上跟进一步

2014-10-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除