Jack_kun-CSDN博客

原创 dataframe中分行

dataframe中对某一个cell进行分行在工作中遇到类似下面的数据：index names0 延\t诞\t蜒1 奄\t掩\t淹\t俺2 彦\t颜\t谚3 央\t秧\t映\t殃4 扬\t杨\t汤\t场\t肠任务：需要对每个cell进行分行，即每个字是1行。处理思路：通过pandas读取为dataframe，通过data...

2019-07-23 10:11:39 1680

RemoveError: 'requests' is a dependency of conda and cannot be removed from conda's operating environment已经安装有conda环境，在希望创建新的虚拟环境、克隆环境、安装包等操作时候，出现如标题的报错。原因：'requests’包是用pip 安装的或者采用python setup.py in...

2019-06-12 16:46:57 7106

原创 ubuntu服务器下载百度云盘内容

一、方法1（推荐）-aria2多线程1. 本地电脑（windows）chrome上面安装插件BaiduExporter2. 服务器上面安装aria23. 在本地电脑chrome上面打开百度云盘文件，看到出现有[导出下载]-选择【文本导出】，复制得到的链接4. 在服务器上面运行复制的内容- 关于插件BaiduExporter安装（直接拉入crx不成功）https://github.c...

2019-02-14 11:10:33 4944

原创词云python

词云在开始接触NLP阶段，初试了文字生成的模型，从而在字符级、词级的条件下建立示例的模型。回到最基本的词的内容，通过可视化方式观察词频的情况，对前期的分析也许有些帮助。这类型的词云图，有时候作为PPT汇报的点缀也提升解释性。在此，简单记录绘制的过程，也方便后续回想。import osimport numpy as npnp.random.seed(123)os.environ['CUD...

2019-01-30 10:20:07 2546

原创 AutoEncoder自编码学习

Table of Contents一、autoencoder demo练习11. autoencoder函数2. 数据处理-2828变为32323. 图关系网络创建4. 数据读入与训练二、autoencoder 练习2网络搭建-encoder和decoder单独拆分数据准备训练模型应用结果关于由拆分的decoder对新数据预测的结果是否与全网络训练得到的autoencoder预测结果是否相同？？...

2019-01-10 18:14:57 1497

原创 stacking的实现-mxtend库

Table of Contents关于Stacked的实现库-mlxtend的学习StackingClassifier例子1 简单实现stacking例子2 sub-model的输出是probabilities例子3 结合GridSearch列子4-针对不同整体选用不同模型StackingCVClassifier例子1 简单stackingCV 分类例子2 sub-model的输出是prob...

2019-01-10 17:55:17 2707

原创集成方法-Stack理解

集成方法-Stack理解什么是STACK？原理？什么是STACK？它是机器学习常用集成方法三大类别之一，在各大kaggle表现优异，广受欢迎。基本思想是：不同模型发挥本身的优势，在他们学习的基础之上，进行融合。原理？数据集划分为train（train_a+train_b）=[train_a+train_b, label_a+label_b]和test=[test, test_label]...

2019-01-08 17:33:31 945 2

翻译 Keras中实现神经网络的Stacking方法

Table of Contents1. stack模型的一般集成方式2. 分类任务的定义3. 神经网络-多层感知器4. 训练并保存模型创建MLP模型并训练创建存放模型的文件夹创建MLP子模型并保存5. 独立Stacking Model载入子模型（sub-model）训练元模型（meta-learner）举例: 元模型=llogistic为例6. 集成的stacking Model-神经网络嵌入神...

2019-01-08 17:30:42 5536 3

原创集成方法stack模型在样例数据集的试验

Table of Contents1. 数据准备2. stack类方法3. 基模型4. stack模型DNN+LRDNN+Decision TreeDNN+SVMDNN+XgboostDNN+RandomForestDNN+LightGBMDNN+GBDT_sklearn小结# 数据处理、分析import pandas as pdimport numpy as npfrom scipy ...

2019-01-08 15:56:32 1753 1

原创集成学习模型stack方法实现

基模型为神经网络，元模型为其它的stack方法class StackingAverageModels_build2(): ''' 第一层的submodel是神经网络第二层的模型是其他模型。 ''' def __init__(self, X_train, y_train, X_test, y_test): self.X_train = X_...

2019-01-08 14:53:30 1635

原创 keras中训练好的模型保存与载入

keras中的采用Sequential模式建立DNN并持久化保持、重新载入def DNN_base_v1(X_train, y_train): model = models.Sequential() model.add(layers.Dense(96, activation='elu',kernel_regularizer=regularizers.l2(0.005)...

2019-01-08 14:50:16 1913

原创关于sklearn中的clone

关于sklearn中的clone功能：复制模型及其参数。属于深层复制。关于复制的深、浅理解。参考：python的复制，深拷贝和浅拷贝的区别在python中，对象赋值实际上是对象的引用，即一般的“=”。属于直接赋值的方式原始列表改变，被赋值的b也会做相同的改变copy浅拷贝，没有拷贝子对象，所以原始数据改变，子对象会改变深拷贝，包含对象里面的自对象的拷贝，所以原始对...

2018-12-24 16:11:48 3361 1

原创关于sklearn.model_selected中的KFold.split的理解

关于sklearn.model_selected中的KFold.split的理解作用：返回样本切分之后数据集的indices，即索引返回：train: ndarray。如果KFold设置shuffle参数是True，是混乱的。test: ndarray。如果KFold设置shuffle参数是True/False，是按照顺序连续！！示例ab_range = np.ar...

2018-12-24 16:10:53 11918 2

原创 SVM的核函数之线性和高斯的选择

Table of Contents关于SVM中线性核函数和高斯核函数的选择1.基本数据准备2.各情况对比1. SVM(kernel='linear')：直接采用数据集[966,1850]2. SVM(kernel='rbf')：直接采用数据集[966,1850]3. LR：直接采用数据集[966,1850]4. 降维之后3.小结关于SVM中线性核函数和高斯核函数的选择SVM中常用核函数一般是...

2018-12-20 16:31:36 16921 3

原创 python函数中将变量名转换成字符串

考虑到在日常中，常常需要对模型指标输出，但涉及多个模型的时候，需要对其有标示输出，故需要将模型变量名转换成字符串。看到的基本方法有两种：一、方法层面：方法1（函数内推荐）：def namestr(obj, namespace): return [name for name in namespace if namespace[name] is obj]print(namestr(lr...

2018-12-20 16:08:04 11647 1

翻译特征学习-RBM与PCA应用在LR

Table of Contents1. 基本信息查询导入package2. 提取PCA 成分3. 提取RBM主成分取出前20个最有代表性的特征提取后20个特征4. RBM在machine learning中效果直接用LR模型采用PCA主成分的LR采用RBM主成分的LR1. 基本信息查询导入packageimport numpy as npimport matplotlib.pyplot ...

2018-12-19 17:38:17 1152

原创 Tensorflow的变量和模型保存以及模型应用

Table of Contents一、模型部分(成功)1.保存的模型2.载入模型并用于预测1.载入图结构和参数2.获取图3.获取tensor4.新的input准备5.应用与预测6.其他内容6.1 查看tensor、node等6.2关于不同版本的checkpoint文件理解二、学习其他简单的1. 保存变量2. 恢复变量3. 选择想要保存的和恢复的变量(还不太明白)三、保存和恢复模型1. 构建和加载...

2018-12-14 16:59:16 2058

原创关于np.max及tf.reduce_mean的计算轴axis的理解

np.max(axis=), tf.reduce_mean(axis=)的理解。下面以np.max作理解import numpy as npa = [[[1,2,3],[11,22,33]],[[10,20,30],[110,220,330]],[[101,201,301],[11001,22001,33001]],[[55,66,77],[550,660,770]]]b = np.a...

2018-12-12 15:07:33 1419

翻译 Feature Engineering-（1）PCA的理解实现

Table of ContentsPCA对比理解与实现一、numpy方式1.数据基本导入2. 绘图函数定义4.计算pca协方差矩阵协方差矩阵的特征值求解查看几个特征值的重要性5.应用求得到的特征值对原数据集进行转换二、采用sklearn1.拟合与训练2.top2的特征值结果3.特征值的重要性（对原数据的可解释性）三、PCA对特征非相关的处理结论：PCA助于减缓特征变量之间的相关性，即使是不减少变...

2018-12-11 15:55:04 1014

原创基于客户提取为所属客户经理的信息

本地处理#!/usr/bin/python# -*- coding: utf-8 -*-# UnicodeDecodeError: 'utf8' codec can't decode byte 0x9a in position 12的暂时解决方法——修改默认encodingimport sysreload(sys)sys.setdefaultencoding('utf-8')fr...

2018-10-10 15:44:08 122726 1

转载 list多层列表展开方法对比

方法一：https://blog.csdn.net/ytfy12/article/details/51162079def printm(listin): abc = [] for ie in listin: if isinstance(ie,list): printm(ie) else: print(...

2018-10-10 15:40:13 2294

转载身份证真实性验证

def is_valid_idcard(idcard): """Validate id card is valid.""" IDCARD_REGEX = '[1-9][0-9]{14}([0-9]{2}[0-9X])?' if isinstance(idcard, int): idcard = str(idcard) if not re.matc...

2018-10-09 21:17:31 2405

原创根据身份证年龄计算

年龄计算def calculate_age(input_born): ''' : input_born: string, len=8 ''' import datetime y_born = input_born[0:4] m_born = input_born[4:6] d_born = input_born[6:8] ...

2018-10-09 21:14:21 883

原创反欺诈子研究-特征衍生过程

内容目录1  衍生特征分析过程1.1  数据读取1.2  定义处理单列的数据1.2.1  单列数据的观察1.2.1.1  家庭结构有关1.2.1.2  社交账号有关1.2.1.3  购物数据（京东账号jd_account、淘宝账号alipay_account

2018-10-04 20:54:06 1867

原创关于链家全网房价数据分析挖掘项目

** 关于链家全网房价数据分析挖掘项目数据说明数据信息：数据量：40多万条观测，20多个列变量时间：2018年5月前来源作者：田昕峣获取方式：https://github.com/XinyaoTian/lianjia_Spider项目目标建立单位面积房价的预测模型内容目录1&nbsp;&nbsp;数据导入2&nbsp;&nbsp;数据探索：3&nbsp;

2018-09-23 11:54:15 6098 4

原创 np.column_stack()数组与列表list的区别

关于np.column_stack()里面1维数组使用[1维数据]之后的区别import numpy as np# np.array((1,2,3),(11,22,33))a=[1,2,3];b=[11,22,33];np.column_stack((a,b))a=[[1,2,3],[10,20,30]];b=[[11,22,33],[110,220,330]];np.column_sta...

2018-09-22 20:46:16 16254 1

原创 pyspark学习与工作历程

pyspark学习与工作历程 pyspark中的dataframe操作spark sql理解：属于架设在spark core之上的高级层。即在使用中，需要在SparkContext基础上架一层SQLContext。Spark SQL的RDD称为SchemaRDD。from pyspark import SQLContext, RowsqlCtx = SQLContext(sc)...

2018-06-21 13:40:50 2530

原创空间多级图绘制

前段时间，没考虑太多，帮忙师妹做了一张空间图。实际发觉还是很耗时间，哎，接的招跪着也得走完，亲师妹呀....发觉这类表达还有所欠缺，但说不上来，下一步打算通过交互式的实现，也便于永久的调整数据，达到重复利用。因此，在此记录一下个人的简单成果，再接再厉。...

2018-03-15 13:51:57 491

转载 python_爬虫（初入门）

基本实现的功能：抓取、分析、存储。一、URL是什么？由哪些部分构成？ 1、简单来说，URL即，浏览器端输入的 http：//www.google.cn 字符串 \2、URI是什么？Web上每种可用的资源，如 HTML文档、图像、视频片段、程序等都由一个通用资源标志符(Universal Resource Identifier， URI)进行定位URI的组成：

2016-11-17 10:05:46 359

Jack_kun的博客