自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

公众号:瑞行AI

欢迎关注公众号瑞行AI,算法交流学习、算法咨询服务

  • 博客(36)
  • 资源 (9)
  • 收藏
  • 关注

原创 C++this指针、友元等小属性集锦

this指针关键字this包含“当前对象的地址”,即this指针的值为&object。在 某个类的成员方法 调用 其他成员方法 时,编译器将隐式得传递this指针。* 调用静态方法时,不会隐式得传递this指针(静态方法是所有实例共享的)。* 要在静态方法里 使用非静态实例变量,应显示地声明一个形参,并将实参设置为this指针。class A{private: int age; void fun(string test){ cout << test; }

2017-11-30 22:23:00 314

原创 C++多态小笔记

派生类多态:派生类实例 传入 基类 引用参数。

2017-11-30 08:20:41 190

原创 C++关键字static

全局静态变量在全局变量前,加上关键字static,全局变量就定义成一个全局静态变量。全局/静态区,在整个程序运行期间一直存在。初始化:未经初始化的 全局静态变量,会被自动初始化为0(自动对象的值是任意的,除非它被显式初始化)。作用域:全局静态变量 在声明它的文件之外是不可见的,准确地说,可见范围是 从定义之处开始,到文件结尾。局部静态变量在局部变量之前,加上关键字static,局部变量就成为一个局部静态变量。内存中的位置:静态存储区。初始化:未经初始化的局部静态变量会被.

2017-11-30 07:03:22 5991 1

原创 Python机器学习库sklearn KFold交叉验证分组情况样本

sklearn官网KFold交叉验证 http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.KFold.html#sklearn.model_selection.KFoldfrom sklearn.cross_validation import KFoldfold = KFold(50,5,shuffle

2017-11-28 20:49:57 7011 2

原创 神经网络——激活函数

激活函数激活函数的主要作用是提供网络的非线性建模能力,分层的非线性映射学习能力。几乎所有的连续可导函数都可以用作激活函数,但目前常见的多是分段线性和具有指数形状的非线性函数。sigmoidsigmoid(x)=11+e−x,sigmoid′(x)=sigmoid(x)(1−sigmoid(x))sigmoid(x)=\frac{1}{1+e^{-x}},sigmoid^{'}(x)=sigmoid(x)(1-sigmoid(x))sigmoid(x)=1+e−x1​,sigmoid′(x)=sigm

2017-11-27 21:10:13 5609

原创 Keras框架作线性回归和非线性回归

import kerasimport numpy as npimport matplotlib.pyplot as plt#按顺序构成的模型from keras.models import Sequential#Dense全连接层from keras.layers import Dense #构建一个顺序模型model=Sequential()#在模型中添加一个全连接层#unit

2017-11-27 19:02:04 6093 1

原创 Keras框架训练模型保存及再载入

实验数据MNIST初次训练模型并保存import numpy as npfrom keras.datasets import mnistfrom keras.utils import np_utilsfrom keras.models import Sequentialfrom keras.layers import Densefrom keras.optimizers import SG

2017-11-27 18:21:04 44790 10

原创 Keras框架神经网络算法训练MNIST分类准确率(实验)

MNIST数据集信息参考:http://yann.lecun.com/exdb/mnist/index.html MNIST是手写数字0~10图片数据集,每一张图片包含28*28个像素。 MNIST训练数据集包含:(1.)60000张图片的像素信息,表示成一个[60000,28,28]的张量;(2.)60000张图片的标签信息,表示成一个[60000,10]的矩阵,因为图片的标签是介于0-9的数

2017-11-27 18:02:20 11918 3

原创 Keras框架优化器参数

Keras后端基于Tensorflow、Theano以及CNTK编写而成,Keras中文文档参考 http://keras-cn.readthedocs.io/en/latest/Keras序贯模型搭建神经网络模型的一般步骤:1.从keras.models库引入Sequential类 2.定义Sequential类的对象model 3.向model里add每一层(隐藏层,激活层等) 4.逐层

2017-11-27 02:52:27 2281

原创 特征工程:数据处理,模型训练集锦(一)

本文是长期学习总结笔记,文中图片摘自寒小阳老师上课讲义。数据格式化数据量不大,可以存文本,数据库 数据量大,放集群hadoop上:hive表,hdfs文件数据清洗数据缺省如果缺值的样本占总数比例极高,我们可能就直接舍弃了,作为特征加入的话,可能反倒带入noise,影响最后的结果了如果缺值的样本适中,而该属性非连续值特征属性(比如说类目属性),那就把Na

2017-11-27 02:34:27 6667

原创 C++拷贝构造函数

利用new在堆区创建的对象,被复制时(按对象值传参),将复制对象的指针成员,但不复制指针成员指向的缓冲区。结果是两个对象指向同一块动态分配的内存,销毁其中一个对象时 - delete释放内存块,导致另一个对象存储的指针拷贝无效。【编译器执行二进制复制:复制 整型、字符和原始指针 等POD数据,不复制 指针指向的内存单元】在没有原始指针成员的情况下,不需要编写拷贝构造函数。因为编译器添加的默认拷贝构造函数 将调用成员对象的拷贝构造函数。拷贝构造函数:一个重载的构造函数,由编写类的程序员提.

2017-11-23 16:52:56 558

原创 C++构造函数和析构函数

private修饰的成员:只能在类内和友元中访问。public修饰的成员:类的对象可获取。构造函数:与类同名,不返回任何值。总是在创建对象时被调用。默认构造函数:不提供参数就可调用的构造函数。包括“带默认参数值的构造函数”。没有默认构造函数,提供了重载的构造函数时,C++编译器不会再为您生成默认构造函数。//test.h#include <iostream>#include <stdlib.h>#include <string>using n

2017-11-23 05:42:12 351

原创 Python机器学习库sklearn网格搜索与交叉验证

网格搜索一般是针对参数进行寻优,交叉验证是为了验证训练模型拟合程度。sklearn中的相关API如下: (1)交叉验证的首要工作:切分数据集train/validation/testA.)没指定数据切分方式,直接选用cross_val_score按默认切分方式进行交叉验证评估得分,如下图from sklearn.model_selection import cross...

2017-11-20 02:57:02 14293 2

原创 Python机器学习库sklearn构造分段与多项式特征

组合特征 A&Bx => x^2 x^3 X^4…红色 蓝色 紫色 黄色 [1,0,0,0]S, M, L, XL, XXL, XXXL [1,0,0,0,0,0]#mglearn包里的make_wave函数import numpy as npdef make_wave(n_samples=100): rnd = np.random.RandomState(42) x =

2017-11-19 20:12:16 4908

原创 Python机器学习库sklearn自动特征选择(训练集)

1.单变量分析from sklearn.feature_selection import SelectPercentilefrom sklearn.datasets import load_breast_cancerfrom sklearn.feature_selection import SelectPercentile#http://scikit-learn.org/stable/modul

2017-11-19 19:37:46 14379 2

原创 Python利用pandas/sklearn处理类别型特征;手动分段与离散化处理连续型特征

类别型变量特征:独热向量编码/One-Hot-Encoding (Dummy variables) 颜色:红、黄、紫[1,0,0] [0,1,0] [0,0,1] LR = theta*X 红色 蓝色 黄色 紫色 咖啡色 白色… => 红色 蓝色 黄色 rare sklearn OneHotEncoder;pandas get_dummies#

2017-11-19 19:12:24 19091

原创 Python机器学习库sklearn几种回归算法建模及分析(实验)

最简单的回归模型就是线性回归数据导入与可视化分析from IPython.display import Image%matplotlib inline# Added version check for recent scikit-learn 0.18 checksfrom distutils.version import LooseVersion as Versionf

2017-11-17 05:28:54 52426 8

原创 Python机器学习库sklearn里利用决策树模型进行回归分析的原理

决策树的相关理论参考http://blog.csdn.net/cymy001/article/details/78027083#原数据网址变了,新换的数据地址需要处理http://lib.stat.cmu.edu/datasets/bostonimport pandas as pdimport numpy as np#df = pd.read_csv('http://lib.stat.c

2017-11-17 04:51:57 2523

原创 Python机器学习库sklearn数据预处理,数据集构建,特征选择

from IPython.display import Image%matplotlib inline# Added version check for recent scikit-learn 0.18 checksfrom distutils.version import LooseVersion as Versionfrom sklearn import __version__ as

2017-11-15 23:11:34 6619 3

原创 Python机器学习库sklearn里利用感知机进行三分类(多分类)的原理

感知机的理论参考http://blog.csdn.net/cymy001/article/details/77992416from IPython.display import Image %matplotlib inline # Added version check for recent scikit-learn 0.18 checks from

2017-11-14 19:35:32 7681

原创 Python机器学习库sklearn里利用LR模型进行三分类(多分类)的原理

有关LR模型的完整理论知识参考http://blog.csdn.net/cymy001/article/details/78153036首先,LR将线性模型利用sigmoid函数进一步做了非线性映射。将分类超平面两侧的正负样本点,通过压缩函数转化成了以0.5为分解的两类:类别0和类别1。这个转化过程见下图:上图给出的是线性边界与LR分布函数(即sigmoid函数)的...

2017-11-14 19:25:47 17627 1

原创 Python科学计算库Numpy里meshgrid用法及矩阵向量合并问题

一、meshgrid的作用首先,meshgrid的作用是将两个向量进行横向纵向扩张>>> import numpy as np>>> x=np.arange(-1,3)>>> xarray([-1, 0, 1, 2])>>> y=np.array([7,8,9])>>> yarray([7, 8, 9])>>> xe,ye=np.meshgrid(x,y)>>> xe

2017-11-14 18:25:47 2768

原创 Python机器学习库sklearn几种分类算法建模可视化(实验)

sklearn官网API查询http://scikit-learn.org/stable/modules/classes.htmlscikit-learn中自带了一些数据集,比如说最著名的Iris数据集。数据集中第3列和第4列数据表示花瓣的长度和宽度,类别标签列已经转成了数字,比如0=Iris-Setosa, 1=Iris-Versicolor, 2=Iris-Virginica.

2017-11-14 16:51:47 31299 3

原创 Python科学计算库Numpy里reshape&newaxis用法

>>> a=np.array([1,2])>>> aarray([1, 2])>>> a.reshape(1,-1)array([[1, 2]])>>> a.reshape(-1,1)array([[1], [2]])reshape一般用法是改变数组维度,比如1*4维向量变成2*2维这里reshape(1,-1)的作用是把一维向量变成二维数组;reshape(-1

2017-11-13 13:02:26 1411

原创 Python可视化库matplotlib.pyplot里contour与contourf的区别

contour和contourf都是画三维等高线图的,不同点在于contourf会对等高线间的区域进行填充,区别如下: import numpy as npimport matplotlib.pyplot as pltfrom matplotlib.colors import ListedColormapx=np.array([1,2])y=np.array([1,2])z=np

2017-11-12 18:59:07 28850 2

原创 Centos6.9安装和IP配置

首先,利用VMware14和Centos6安装虚拟机 Centos6镜像下载地址 http://mirrors.sohu.com/centos/6.9/isos/i386/1、自动获取IP地址虚拟机使用桥接模式,相当于连接到物理机的网络里,物理机网络有DHCP服务器自动分配IP地址。 dhclient 自动获取ip地址命令 ifconfig 查询系统里网卡、ip地址、子网掩码2、手动设置ip地

2017-11-10 18:42:17 7600

原创 C++变量可见

写这篇纯粹就是钻牛角尖,把排列组合的精神发挥得淋漓尽致要~//test.h 用extern声明定义extern int sss;//test.c 定义变量int sss = 10;//main.c 一次定义,可以多次声明extern int sss;cout << sss << endl; //这里要想用,必须ertern声明【注意这里没include test.h】//test.c 定义变量int sss = 10;//main.c 一次定义,

2017-11-10 04:49:13 1289

原创 pyspark的使用和操作(基础整理)

Spark框架是使用Scala函数式编程语言开发的,支持Java编程,Java与Scala可以互操作。此外,Spark提供了Python编程接口,Spark使用Py4J实现Python与Java的互操作,从而可以使用Python编写Spark程序。Spark还提供了一个Python_Shell,即pyspark,从而可以以交互的方式使用Python编写Spark程序。 有关Spark的基本架构介绍

2017-11-08 21:44:31 98858 7

原创 Spark大数据计算引擎介绍

本文内容参考《Spark与Hadoop大数据分析》[美]文卡特·安卡姆 著;《大数据架构详解 从数据获取到深度学习》 朱洁 罗华霖 著。大数据生态的两个主要部分是Hadoop软件框架和Spark内存级计算引擎。Hadoop包含四个项目:Hadoop common,HDFS,YARN和MapReduce。 HDFS用于存储数据,HDFS文件被划分成区块分布在集群上; 用于管理集群资源(CPU和内存

2017-11-08 21:34:12 6759

原创 Anaconda3.4.2配置pyspark环境,win7无hadoop

(一)首先安装Anaconda3.4.2你也可以安装别的版本的,只要查好支持pyspark就行。Anaconda的各种版本下载在参考http://blog.csdn.net/cymy001/article/details/78107240 。下面按我自己配置环境时使用的Anaconda3.4.2为例进行说明。安装完Anaconda3.4.2之后,配置系统变量 D:\PYTHON35\Anacond

2017-11-03 00:47:53 12374 1

原创 利用Hadoop平台的map-reduce进行词频统计

下述内容操作平台有三个: 个人PC,远端阿里云linux服务器,远端Hadoop集群(一)进入本地服务器实验文件目录(二)查看实验步骤说明文档(三)删除前一次操作同样实验的数据,避免实验干扰错误(四)上传数据集到hadoop集群(五)不要直接写完程序去hadoop集群上运行;先小规模数据,本地模拟程序debug map操作程序 reduce操作程序 (六)利用hadoop streami

2017-11-02 19:55:08 4323

原创 操作系统碎碎念

进程&线程 概念进程是现代计算机系统最成功最深刻的抽象概念之一,进程的目的主要是方便计算机的使用,不同的程序,可以看起来各自独立的运行在计算机上,就像自己在独占计算机一样。对现代的计算机使用者来说,进程就像空气一样稀松平常无时不刻不在使用,但进程不是计算机与生俱来的;进程的调度,切换,是操作系统最基本最重要的功能之一。进程的出发点并不是提高程序并行的效率,进程的切换,代价是比较高的,进程上下文的保存切换,还有一些缓存的切换,会使缓存命中下降。线程主要是从提高程序运行效率角度设计的,线程的主要特

2017-11-02 17:24:32 227

原创 Linux基本用法(基于Xshell5&Xftp5,hadoop)

(1)ls:查看当前目录下文件(夹)(2)ls XX* :通配符*,查看当前目录下以XX开头的匹配文件(3)cd XX:将目录切换到XX文件夹下(4)vim XX.txt:查看XX.txt文件内容(5):q!:退出vim查看(6)less XX.txt:按行输出查看XX.txt文件内容(7)enter+q:退出less查看(8)cat XX.txt:对文件XX.txt做标准输出操作(9)|:连接两个

2017-11-02 15:20:02 690

原创 Python高级可视化库seaborn分类分析(基础整理)

分类统计图(1)统计柱状图barplot(均值和置信区间) (2)灰度柱状图countplot (3)点图pointplot(均值和置信区间)分类散点图当有一维数据是分类数据时,散点图成为了条带形状: (1)航线图stripplot,设置参数添加抖动方法jitter=True(点的直接展示) (2)生成蜂群图swarmplot,避免散点重叠(点的直接展示)分类分布图(1)箱式图boxplot

2017-11-02 13:25:00 3126

原创 Python高级可视化库seaborn回归分析(基础整理)

探索变量间的关系两个变量:lmplot,绘制回归模型(1.1)两个维度数据都是连续的:散点图 + 线性回归 + 95%置信区间 (1.2)一个维度数据是连续的,一个维度数据是离散的,连续轴抖动x_jitter参数 (1.3)x_estimator参数将“离散取值维度”用均值和置信区间代替散点拟合不同模型(1.1)lmplot默认参数线性拟合 (1.2)lmplot的order参数,设置高阶拟合

2017-11-02 01:53:10 13802

原创 Python高级可视化库seaborn分布分析(基础整理)

单变量分布(1)distplot,seaborn的displot()函数集合了matplotlib的hist()与核函数估计kdeplot的功能,增加了rugplot分布观测条显示与利用scipy库fit拟合参数分布的新颖用途。 (2)kdeplot,核密度估计的步骤:每一个观测附近用一个正态分布曲线近似;叠加所有观测的正态分布曲线;归一化 bandwidth(bw参数)用于近似的正态分布曲线的

2017-11-01 20:43:42 18237

test_ctr.zip

贝叶斯平滑机制计算ctr更能反映物品的点击率,用矩估计估计出来的参数alpha和beta,再把相应的给ctr计算做平滑,实验证明,使用该平滑机制计算的ctr更能反应物品的热度。

2020-05-29

underexpose_train.zip

用户点击的item序列embedding使用数据,类似一句话是一个文本序列,通常可以直接使用word2vec编码,同样可以对用户点击物品id序列进行编码。

2020-05-29

tfrecord数据.zip

tensorflow实战场景tfrecord方式读取数据的数据样本,现在tensorflow架构里限制整个流程瓶颈的是数据IO,用Queue机制异步的方式(生产者消费者模式)实现数据IO可以高效完成数据的预处理和读取,有效利用GPU资源。

2020-05-17

数据集demo-word.sh.zip

google-code的word2vec训练工具配套数据,demo-word.sh

2019-09-19

word2vec.zip

This tool provides an efficient implementation of the continuous bag-of-words and skip-gram architectures for computing vector representations of words. These representations can be subsequently used in many natural language processing applications and for further research.

2019-09-19

README.md文档

spark入门联系wordcount等相关操作文档~ Spark is a fast and general cluster computing system for Big Data. It provides high-level APIs in Scala, Java, Python, and R, and an optimized engine that supports general computation graphs for data analysis. It also supports a rich set of higher-level tools including Spark SQL for SQL and DataFrames, MLlib for machine learning, GraphX for graph processing, and Spark Streaming for stream processing.

2019-08-19

cnews.zip 新浪新闻RSS订阅频道10类文本数据

数据集是清华大学根据新浪新闻RSS订阅频道2005-2011年间的历史数据筛选过滤生成。数据集一共包括10类新闻,每类新闻65000条文本数据,训练集50000条,测试集10000条,验证集5000条。

2019-07-17

SI4安装及破解文件.zip

非常好用的适合撰写如C/C++或Java等程序语言的编辑器,可以自动列出程序的变量,量数等。

2019-06-28

cooking.stackexchange.tar.gz

Stack exchange 网站的烹饪部分下载问题示例及其相应标签数据集,用于fastText模型训练

2019-06-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除