2017年11月_thinker_1120

12月 11月 10月 09月 08月

原创 C++this指针、友元等小属性集锦

this指针关键字this包含“当前对象的地址”，即this指针的值为&object。在某个类的成员方法调用其他成员方法时，编译器将隐式得传递this指针。* 调用静态方法时，不会隐式得传递this指针(静态方法是所有实例共享的)。* 要在静态方法里使用非静态实例变量，应显示地声明一个形参，并将实参设置为this指针。class A{private: int age; void fun(string test){ cout << test; }

2017-11-30 22:23:00 314

原创 C++多态小笔记

派生类多态：派生类实例传入基类引用参数。

2017-11-30 08:20:41 190

原创 C++关键字static

全局静态变量在全局变量前，加上关键字static，全局变量就定义成一个全局静态变量。全局/静态区，在整个程序运行期间一直存在。初始化：未经初始化的全局静态变量，会被自动初始化为0（自动对象的值是任意的，除非它被显式初始化）。作用域：全局静态变量在声明它的文件之外是不可见的，准确地说，可见范围是从定义之处开始，到文件结尾。局部静态变量在局部变量之前，加上关键字static，局部变量就成为一个局部静态变量。内存中的位置：静态存储区。初始化：未经初始化的局部静态变量会被.

2017-11-30 07:03:22 5991 1

原创 Python机器学习库sklearn KFold交叉验证分组情况样本

sklearn官网KFold交叉验证 http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.KFold.html#sklearn.model_selection.KFoldfrom sklearn.cross_validation import KFoldfold = KFold(50,5,shuffle

2017-11-28 20:49:57 7011 2

原创神经网络——激活函数

激活函数激活函数的主要作用是提供网络的非线性建模能力，分层的非线性映射学习能力。几乎所有的连续可导函数都可以用作激活函数，但目前常见的多是分段线性和具有指数形状的非线性函数。sigmoidsigmoid(x)=11+e−x,sigmoid′(x)=sigmoid(x)(1−sigmoid(x))sigmoid(x)=\frac{1}{1+e^{-x}},sigmoid^{'}(x)=sigmoid(x)(1-sigmoid(x))sigmoid(x)=1+e−x1,sigmoid′(x)=sigm

2017-11-27 21:10:13 5609

原创 Keras框架作线性回归和非线性回归

import kerasimport numpy as npimport matplotlib.pyplot as plt#按顺序构成的模型from keras.models import Sequential#Dense全连接层from keras.layers import Dense #构建一个顺序模型model=Sequential()#在模型中添加一个全连接层#unit

2017-11-27 19:02:04 6093 1

原创 Keras框架训练模型保存及再载入

实验数据MNIST初次训练模型并保存import numpy as npfrom keras.datasets import mnistfrom keras.utils import np_utilsfrom keras.models import Sequentialfrom keras.layers import Densefrom keras.optimizers import SG

2017-11-27 18:21:04 44790 10

原创 Keras框架神经网络算法训练MNIST分类准确率(实验)

MNIST数据集信息参考：http://yann.lecun.com/exdb/mnist/index.html MNIST是手写数字0~10图片数据集，每一张图片包含28*28个像素。 MNIST训练数据集包含：（1.）60000张图片的像素信息，表示成一个[60000,28,28]的张量；（2.）60000张图片的标签信息，表示成一个[60000,10]的矩阵，因为图片的标签是介于0-9的数

2017-11-27 18:02:20 11918 3

原创 Keras框架优化器参数

Keras后端基于Tensorflow、Theano以及CNTK编写而成，Keras中文文档参考 http://keras-cn.readthedocs.io/en/latest/Keras序贯模型搭建神经网络模型的一般步骤：1.从keras.models库引入Sequential类 2.定义Sequential类的对象model 3.向model里add每一层（隐藏层，激活层等） 4.逐层

2017-11-27 02:52:27 2281

原创特征工程：数据处理，模型训练集锦(一)

本文是长期学习总结笔记，文中图片摘自寒小阳老师上课讲义。数据格式化数据量不大，可以存文本，数据库数据量大，放集群hadoop上：hive表，hdfs文件数据清洗数据缺省如果缺值的样本占总数比例极高，我们可能就直接舍弃了，作为特征加入的话，可能反倒带入noise，影响最后的结果了如果缺值的样本适中，而该属性非连续值特征属性(比如说类目属性)，那就把Na

2017-11-27 02:34:27 6667

原创 C++拷贝构造函数

利用new在堆区创建的对象，被复制时(按对象值传参)，将复制对象的指针成员，但不复制指针成员指向的缓冲区。结果是两个对象指向同一块动态分配的内存，销毁其中一个对象时 - delete释放内存块，导致另一个对象存储的指针拷贝无效。【编译器执行二进制复制：复制整型、字符和原始指针等POD数据，不复制指针指向的内存单元】在没有原始指针成员的情况下，不需要编写拷贝构造函数。因为编译器添加的默认拷贝构造函数将调用成员对象的拷贝构造函数。拷贝构造函数：一个重载的构造函数，由编写类的程序员提.

2017-11-23 16:52:56 558

原创 C++构造函数和析构函数

private修饰的成员：只能在类内和友元中访问。public修饰的成员：类的对象可获取。构造函数：与类同名，不返回任何值。总是在创建对象时被调用。默认构造函数：不提供参数就可调用的构造函数。包括“带默认参数值的构造函数”。没有默认构造函数，提供了重载的构造函数时，C++编译器不会再为您生成默认构造函数。//test.h#include <iostream>#include <stdlib.h>#include <string>using n

2017-11-23 05:42:12 351

原创 Python机器学习库sklearn网格搜索与交叉验证

网格搜索一般是针对参数进行寻优，交叉验证是为了验证训练模型拟合程度。sklearn中的相关API如下：（1）交叉验证的首要工作：切分数据集train/validation/testA.)没指定数据切分方式，直接选用cross_val_score按默认切分方式进行交叉验证评估得分，如下图from sklearn.model_selection import cross...

2017-11-20 02:57:02 14293 2

原创 Python机器学习库sklearn构造分段与多项式特征

组合特征 A&Bx => x^2 x^3 X^4…红色蓝色紫色黄色 [1,0,0,0]S, M, L, XL, XXL, XXXL [1,0,0,0,0,0]#mglearn包里的make_wave函数import numpy as npdef make_wave(n_samples=100): rnd = np.random.RandomState(42) x =

2017-11-19 20:12:16 4908

原创 Python机器学习库sklearn自动特征选择（训练集）

1.单变量分析from sklearn.feature_selection import SelectPercentilefrom sklearn.datasets import load_breast_cancerfrom sklearn.feature_selection import SelectPercentile#http://scikit-learn.org/stable/modul

2017-11-19 19:37:46 14379 2

原创 Python利用pandas/sklearn处理类别型特征；手动分段与离散化处理连续型特征

类别型变量特征：独热向量编码/One-Hot-Encoding (Dummy variables) 颜色：红、黄、紫[1,0,0] [0,1,0] [0,0,1] LR = theta*X 红色蓝色黄色紫色咖啡色白色… => 红色蓝色黄色 rare sklearn OneHotEncoder；pandas get_dummies#

2017-11-19 19:12:24 19091

原创 Python机器学习库sklearn几种回归算法建模及分析(实验)

最简单的回归模型就是线性回归数据导入与可视化分析from IPython.display import Image%matplotlib inline# Added version check for recent scikit-learn 0.18 checksfrom distutils.version import LooseVersion as Versionf

2017-11-17 05:28:54 52426 8

原创 Python机器学习库sklearn里利用决策树模型进行回归分析的原理

决策树的相关理论参考http://blog.csdn.net/cymy001/article/details/78027083#原数据网址变了，新换的数据地址需要处理http://lib.stat.cmu.edu/datasets/bostonimport pandas as pdimport numpy as np#df = pd.read_csv('http://lib.stat.c

2017-11-17 04:51:57 2523

原创 Python机器学习库sklearn数据预处理，数据集构建，特征选择

from IPython.display import Image%matplotlib inline# Added version check for recent scikit-learn 0.18 checksfrom distutils.version import LooseVersion as Versionfrom sklearn import __version__ as

2017-11-15 23:11:34 6619 3

原创 Python机器学习库sklearn里利用感知机进行三分类（多分类）的原理

感知机的理论参考http://blog.csdn.net/cymy001/article/details/77992416from IPython.display import Image %matplotlib inline # Added version check for recent scikit-learn 0.18 checks from

2017-11-14 19:35:32 7681

原创 Python机器学习库sklearn里利用LR模型进行三分类（多分类）的原理

有关LR模型的完整理论知识参考http://blog.csdn.net/cymy001/article/details/78153036首先，LR将线性模型利用sigmoid函数进一步做了非线性映射。将分类超平面两侧的正负样本点，通过压缩函数转化成了以0.5为分解的两类：类别0和类别1。这个转化过程见下图：上图给出的是线性边界与LR分布函数（即sigmoid函数）的...

2017-11-14 19:25:47 17627 1

原创 Python科学计算库Numpy里meshgrid用法及矩阵向量合并问题

一、meshgrid的作用首先，meshgrid的作用是将两个向量进行横向纵向扩张>>> import numpy as np>>> x=np.arange(-1,3)>>> xarray([-1, 0, 1, 2])>>> y=np.array([7,8,9])>>> yarray([7, 8, 9])>>> xe,ye=np.meshgrid(x,y)>>> xe

2017-11-14 18:25:47 2768

原创 Python机器学习库sklearn几种分类算法建模可视化(实验)

sklearn官网API查询http://scikit-learn.org/stable/modules/classes.htmlscikit-learn中自带了一些数据集，比如说最著名的Iris数据集。数据集中第3列和第4列数据表示花瓣的长度和宽度，类别标签列已经转成了数字，比如0=Iris-Setosa, 1=Iris-Versicolor, 2=Iris-Virginica.

2017-11-14 16:51:47 31299 3

原创 Python科学计算库Numpy里reshape&newaxis用法

>>> a=np.array([1,2])>>> aarray([1, 2])>>> a.reshape(1,-1)array([[1, 2]])>>> a.reshape(-1,1)array([[1], [2]])reshape一般用法是改变数组维度，比如1*4维向量变成2*2维这里reshape(1,-1)的作用是把一维向量变成二维数组；reshape(-1

2017-11-13 13:02:26 1411

原创 Python可视化库matplotlib.pyplot里contour与contourf的区别

contour和contourf都是画三维等高线图的，不同点在于contourf会对等高线间的区域进行填充，区别如下： import numpy as npimport matplotlib.pyplot as pltfrom matplotlib.colors import ListedColormapx=np.array([1,2])y=np.array([1,2])z=np

2017-11-12 18:59:07 28850 2

原创 Centos6.9安装和IP配置

首先，利用VMware14和Centos6安装虚拟机 Centos6镜像下载地址 http://mirrors.sohu.com/centos/6.9/isos/i386/1、自动获取IP地址虚拟机使用桥接模式，相当于连接到物理机的网络里，物理机网络有DHCP服务器自动分配IP地址。 dhclient 自动获取ip地址命令 ifconfig 查询系统里网卡、ip地址、子网掩码2、手动设置ip地

2017-11-10 18:42:17 7600

原创 C++变量可见

写这篇纯粹就是钻牛角尖，把排列组合的精神发挥得淋漓尽致要~//test.h 用extern声明定义extern int sss;//test.c 定义变量int sss = 10;//main.c 一次定义，可以多次声明extern int sss;cout << sss << endl; //这里要想用，必须ertern声明【注意这里没include test.h】//test.c 定义变量int sss = 10;//main.c 一次定义，

2017-11-10 04:49:13 1289

原创 pyspark的使用和操作(基础整理)

Spark框架是使用Scala函数式编程语言开发的，支持Java编程，Java与Scala可以互操作。此外，Spark提供了Python编程接口，Spark使用Py4J实现Python与Java的互操作，从而可以使用Python编写Spark程序。Spark还提供了一个Python_Shell，即pyspark，从而可以以交互的方式使用Python编写Spark程序。有关Spark的基本架构介绍

2017-11-08 21:44:31 98858 7

原创 Spark大数据计算引擎介绍

本文内容参考《Spark与Hadoop大数据分析》[美]文卡特·安卡姆著；《大数据架构详解从数据获取到深度学习》朱洁罗华霖著。大数据生态的两个主要部分是Hadoop软件框架和Spark内存级计算引擎。Hadoop包含四个项目：Hadoop common，HDFS，YARN和MapReduce。 HDFS用于存储数据，HDFS文件被划分成区块分布在集群上；用于管理集群资源（CPU和内存

2017-11-08 21:34:12 6759

原创 Anaconda3.4.2配置pyspark环境，win7无hadoop

（一）首先安装Anaconda3.4.2你也可以安装别的版本的，只要查好支持pyspark就行。Anaconda的各种版本下载在参考http://blog.csdn.net/cymy001/article/details/78107240 。下面按我自己配置环境时使用的Anaconda3.4.2为例进行说明。安装完Anaconda3.4.2之后，配置系统变量 D:\PYTHON35\Anacond

2017-11-03 00:47:53 12374 1

原创利用Hadoop平台的map-reduce进行词频统计

下述内容操作平台有三个：个人PC，远端阿里云linux服务器，远端Hadoop集群（一）进入本地服务器实验文件目录（二）查看实验步骤说明文档（三）删除前一次操作同样实验的数据，避免实验干扰错误（四）上传数据集到hadoop集群（五）不要直接写完程序去hadoop集群上运行；先小规模数据，本地模拟程序debug map操作程序 reduce操作程序（六）利用hadoop streami

2017-11-02 19:55:08 4323

原创操作系统碎碎念

进程&线程概念进程是现代计算机系统最成功最深刻的抽象概念之一，进程的目的主要是方便计算机的使用，不同的程序，可以看起来各自独立的运行在计算机上，就像自己在独占计算机一样。对现代的计算机使用者来说，进程就像空气一样稀松平常无时不刻不在使用，但进程不是计算机与生俱来的；进程的调度，切换，是操作系统最基本最重要的功能之一。进程的出发点并不是提高程序并行的效率，进程的切换，代价是比较高的，进程上下文的保存切换，还有一些缓存的切换，会使缓存命中下降。线程主要是从提高程序运行效率角度设计的，线程的主要特

2017-11-02 17:24:32 227

原创 Linux基本用法(基于Xshell5&Xftp5,hadoop)

（1）ls：查看当前目录下文件(夹)（2）ls XX* ：通配符*，查看当前目录下以XX开头的匹配文件（3）cd XX：将目录切换到XX文件夹下（4）vim XX.txt：查看XX.txt文件内容（5）：q!：退出vim查看（6）less XX.txt：按行输出查看XX.txt文件内容（7）enter+q：退出less查看（8）cat XX.txt：对文件XX.txt做标准输出操作（9）|：连接两个

2017-11-02 15:20:02 690

原创 Python高级可视化库seaborn分类分析(基础整理)

分类统计图（1）统计柱状图barplot(均值和置信区间) （2）灰度柱状图countplot （3）点图pointplot(均值和置信区间)分类散点图当有一维数据是分类数据时，散点图成为了条带形状：（1）航线图stripplot，设置参数添加抖动方法jitter=True(点的直接展示) （2）生成蜂群图swarmplot，避免散点重叠(点的直接展示)分类分布图（1）箱式图boxplot

2017-11-02 13:25:00 3126

原创 Python高级可视化库seaborn回归分析(基础整理)

探索变量间的关系两个变量：lmplot，绘制回归模型（1.1）两个维度数据都是连续的：散点图 + 线性回归 + 95%置信区间（1.2）一个维度数据是连续的，一个维度数据是离散的，连续轴抖动x_jitter参数（1.3）x_estimator参数将“离散取值维度”用均值和置信区间代替散点拟合不同模型（1.1）lmplot默认参数线性拟合（1.2）lmplot的order参数，设置高阶拟合

2017-11-02 01:53:10 13802

原创 Python高级可视化库seaborn分布分析(基础整理)

单变量分布（1）distplot，seaborn的displot()函数集合了matplotlib的hist()与核函数估计kdeplot的功能，增加了rugplot分布观测条显示与利用scipy库fit拟合参数分布的新颖用途。（2）kdeplot，核密度估计的步骤：每一个观测附近用一个正态分布曲线近似；叠加所有观测的正态分布曲线；归一化 bandwidth(bw参数)用于近似的正态分布曲线的

2017-11-01 20:43:42 18237

test_ctr.zip

贝叶斯平滑机制计算ctr更能反映物品的点击率，用矩估计估计出来的参数alpha和beta，再把相应的给ctr计算做平滑，实验证明，使用该平滑机制计算的ctr更能反应物品的热度。

2020-05-29

underexpose_train.zip

用户点击的item序列embedding使用数据，类似一句话是一个文本序列，通常可以直接使用word2vec编码，同样可以对用户点击物品id序列进行编码。

2020-05-29

tfrecord数据.zip

tensorflow实战场景tfrecord方式读取数据的数据样本，现在tensorflow架构里限制整个流程瓶颈的是数据IO，用Queue机制异步的方式(生产者消费者模式)实现数据IO可以高效完成数据的预处理和读取，有效利用GPU资源。

2020-05-17

数据集demo-word.sh.zip

google-code的word2vec训练工具配套数据，demo-word.sh

2019-09-19

word2vec.zip

This tool provides an efficient implementation of the continuous bag-of-words and skip-gram architectures for computing vector representations of words. These representations can be subsequently used in many natural language processing applications and for further research.

2019-09-19

README.md文档

spark入门联系wordcount等相关操作文档~ Spark is a fast and general cluster computing system for Big Data. It provides high-level APIs in Scala, Java, Python, and R, and an optimized engine that supports general computation graphs for data analysis. It also supports a rich set of higher-level tools including Spark SQL for SQL and DataFrames, MLlib for machine learning, GraphX for graph processing, and Spark Streaming for stream processing.

2019-08-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人