自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Jack_kun的博客

仰望星空,迎接北极光

  • 博客(29)
  • 资源 (1)
  • 收藏
  • 关注

原创 dataframe中分行

dataframe中对某一个cell进行分行在工作中遇到类似下面的数据:index names0 延\t诞\t蜒1 奄\t掩\t淹\t俺2 彦\t颜\t谚3 央\t秧\t映\t殃4 扬\t杨\t汤\t场\t肠任务:需要对每个cell进行分行,即每个字是1行。处理思路:通过pandas读取为dataframe,通过data...

2019-07-23 10:11:39 1500

原创 创建conda虚拟环境报错

RemoveError: 'requests' is a dependency of conda and cannot be removed from conda's operating environment已经安装有conda环境,在希望创建新的虚拟环境、克隆环境、安装包等操作时候,出现如标题的报错。原因:'requests’包是用pip 安装的或者采用python setup.py in...

2019-06-12 16:46:57 6754

原创 ubuntu服务器下载百度云盘内容

一、方法1(推荐)-aria2多线程1. 本地电脑(windows)chrome上面安装插件BaiduExporter2. 服务器上面安装aria23. 在本地电脑chrome上面打开百度云盘文件,看到出现有[导出下载]-选择【文本导出】,复制得到的链接4. 在服务器上面运行复制的内容- 关于插件BaiduExporter安装(直接拉入crx不成功)https://github.c...

2019-02-14 11:10:33 4493

原创 词云python

词云在开始接触NLP阶段,初试了文字生成的模型,从而在字符级、词级的条件下建立示例的模型。回到最基本的词的内容,通过可视化方式观察词频的情况,对前期的分析也许有些帮助。这类型的词云图,有时候作为PPT汇报的点缀也提升解释性。在此,简单记录绘制的过程,也方便后续回想。import osimport numpy as npnp.random.seed(123)os.environ['CUD...

2019-01-30 10:20:07 2377

原创 AutoEncoder自编码学习

Table of Contents一、autoencoder demo练习11. autoencoder函数2. 数据处理-2828变为32323. 图关系网络创建4. 数据读入与训练二、autoencoder 练习2网络搭建-encoder和decoder单独拆分数据准备训练模型应用结果关于由拆分的decoder对新数据预测的结果是否与全网络训练得到的autoencoder预测结果是否相同??...

2019-01-10 18:14:57 1164

原创 stacking的实现-mxtend库

Table of Contents关于Stacked的实现库-mlxtend的学习StackingClassifier例子1 简单实现stacking例子2 sub-model的输出是probabilities例子3 结合GridSearch列子4-针对不同整体选用不同模型StackingCVClassifier例子1 简单stackingCV 分类例子2 sub-model的输出是prob...

2019-01-10 17:55:17 2304

原创 集成方法-Stack理解

集成方法-Stack理解什么是STACK?原理?什么是STACK?它是机器学习常用集成方法三大类别之一,在各大kaggle表现优异,广受欢迎。基本思想是:不同模型发挥本身的优势,在他们学习的基础之上,进行融合。原理?数据集划分为train(train_a+train_b)=[train_a+train_b, label_a+label_b]和test=[test, test_label]...

2019-01-08 17:33:31 793 2

翻译 Keras中实现神经网络的Stacking方法

Table of Contents1. stack模型的一般集成方式2. 分类任务的定义3. 神经网络-多层感知器4. 训练并保存模型创建MLP模型并训练创建存放模型的文件夹创建MLP子模型并保存5. 独立Stacking Model载入子模型(sub-model)训练元模型(meta-learner)举例: 元模型=llogistic为例6. 集成的stacking Model-神经网络嵌入神...

2019-01-08 17:30:42 5098 3

原创 集成方法stack模型在样例数据集的试验

Table of Contents1. 数据准备2. stack类方法3. 基模型4. stack模型DNN+LRDNN+Decision TreeDNN+SVMDNN+XgboostDNN+RandomForestDNN+LightGBMDNN+GBDT_sklearn小结# 数据处理、分析import pandas as pdimport numpy as npfrom scipy ...

2019-01-08 15:56:32 1347 1

原创 集成学习模型stack方法实现

基模型为神经网络,元模型为其它的stack方法class StackingAverageModels_build2(): ''' 第一层的submodel是神经网络 第二层的模型是其他模型。 ''' def __init__(self, X_train, y_train, X_test, y_test): self.X_train = X_...

2019-01-08 14:53:30 1492

原创 keras中训练好的模型保存与载入

keras中的采用Sequential模式建立DNN并持久化保持、重新载入def DNN_base_v1(X_train, y_train): model = models.Sequential() model.add(layers.Dense(96, activation='elu',kernel_regularizer=regularizers.l2(0.005)...

2019-01-08 14:50:16 1776

原创 关于sklearn中的clone

关于sklearn中的clone功能:复制模型及其参数。属于深层复制。关于复制的深、浅理解。参考:python的复制,深拷贝和浅拷贝的区别在python中,对象赋值实际上是对象的引用,即一般的“=”。属于直接赋值的方式原始列表改变,被赋值的b也会做相同的改变copy浅拷贝,没有拷贝子对象,所以原始数据改变,子对象会改变深拷贝,包含对象里面的自对象的拷贝,所以原始对...

2018-12-24 16:11:48 3058 1

原创 关于sklearn.model_selected中的KFold.split的理解

关于sklearn.model_selected中的KFold.split的理解作用:返回样本切分之后数据集的indices,即索引返回:train: ndarray。如果KFold设置shuffle参数是True,是混乱的。test: ndarray。如果KFold设置shuffle参数是True/False,是按照顺序连续!!示例ab_range = np.ar...

2018-12-24 16:10:53 11634 2

原创 SVM的核函数之线性和高斯的选择

Table of Contents关于SVM中线性核函数和高斯核函数的选择1.基本数据准备2.各情况对比1. SVM(kernel='linear'):直接采用数据集[966,1850]2. SVM(kernel='rbf'):直接采用数据集[966,1850]3. LR:直接采用数据集[966,1850]4. 降维之后3.小结关于SVM中线性核函数和高斯核函数的选择SVM中常用核函数一般是...

2018-12-20 16:31:36 16035 3

原创 python函数中将变量名转换成字符串

考虑到在日常中,常常需要对模型指标输出,但涉及多个模型的时候,需要对其有标示输出,故需要将模型变量名转换成字符串。看到的基本方法有两种:一、方法层面:方法1(函数内推荐):def namestr(obj, namespace): return [name for name in namespace if namespace[name] is obj]print(namestr(lr...

2018-12-20 16:08:04 11210 1

翻译 特征学习-RBM与PCA应用在LR

Table of Contents1. 基本信息查询导入package2. 提取PCA 成分3. 提取RBM主成分取出前20个最有代表性的特征提取后20个特征4. RBM在machine learning中效果直接用LR模型采用PCA主成分的LR采用RBM主成分的LR1. 基本信息查询导入packageimport numpy as npimport matplotlib.pyplot ...

2018-12-19 17:38:17 813

原创 Tensorflow的变量和模型保存以及模型应用

Table of Contents一、模型部分(成功)1.保存的模型2.载入模型并用于预测1.载入图结构和参数2.获取图3.获取tensor4.新的input准备5.应用与预测6.其他内容6.1 查看tensor、node等6.2关于不同版本的checkpoint文件理解二、学习其他简单的1. 保存变量2. 恢复变量3. 选择想要保存的和恢复的变量(还不太明白)三、保存和恢复模型1. 构建和加载...

2018-12-14 16:59:16 1451

原创 关于np.max及tf.reduce_mean的计算轴axis的理解

np.max(axis=), tf.reduce_mean(axis=)的理解。下面以np.max作理解import numpy as npa = [[[1,2,3],[11,22,33]],[[10,20,30],[110,220,330]],[[101,201,301],[11001,22001,33001]],[[55,66,77],[550,660,770]]]b = np.a...

2018-12-12 15:07:33 1314

翻译 Feature Engineering-(1)PCA的理解实现

Table of ContentsPCA对比理解与实现一、numpy方式1.数据基本导入2. 绘图函数定义4.计算pca协方差矩阵协方差矩阵的特征值求解查看几个特征值的重要性5.应用求得到的特征值对原数据集进行转换二、采用sklearn1.拟合与训练2.top2的特征值结果3.特征值的重要性(对原数据的可解释性)三、PCA对特征非相关的处理结论:PCA助于减缓特征变量之间的相关性,即使是不减少变...

2018-12-11 15:55:04 314

原创 基于客户提取为所属客户经理的信息

本地处理#!/usr/bin/python# -*- coding: utf-8 -*-# UnicodeDecodeError: 'utf8' codec can't decode byte 0x9a in position 12的暂时解决方法——修改默认encodingimport sysreload(sys)sys.setdefaultencoding('utf-8')fr...

2018-10-10 15:44:08 100134

转载 list多层列表展开方法对比

方法一:https://blog.csdn.net/ytfy12/article/details/51162079def printm(listin): abc = [] for ie in listin: if isinstance(ie,list): printm(ie) else: print(...

2018-10-10 15:40:13 2165

转载 身份证真实性验证

def is_valid_idcard(idcard): """Validate id card is valid.""" IDCARD_REGEX = '[1-9][0-9]{14}([0-9]{2}[0-9X])?' if isinstance(idcard, int): idcard = str(idcard) if not re.matc...

2018-10-09 21:17:31 2271

原创 根据身份证年龄计算

年龄计算def calculate_age(input_born): ''' : input_born: string, len=8 ''' import datetime y_born = input_born[0:4] m_born = input_born[4:6] d_born = input_born[6:8] ...

2018-10-09 21:14:21 671

原创 反欺诈子研究-特征衍生过程

内容目录1  衍生特征分析过程1.1  数据读取1.2  定义处理单列的数据1.2.1  单列数据的观察1.2.1.1  家庭结构有关1.2.1.2  社交账号有关1.2.1.3  购物数据(京东账号jd_account、淘宝账号alipay_account

2018-10-04 20:54:06 1447

原创 关于链家全网房价数据分析挖掘项目

** 关于链家全网房价数据分析挖掘项目数据说明数据信息:数据量:40多万条观测,20多个列变量时间:2018年5月前来源作者:田昕峣获取方式:https://github.com/XinyaoTian/lianjia_Spider项目目标建立单位面积房价的预测模型内容目录1  数据导入2  数据探索:3 

2018-09-23 11:54:15 4014 4

原创 np.column_stack()数组与列表list的区别

关于np.column_stack()里面1维数组使用[1维数据]之后的区别import numpy as np# np.array((1,2,3),(11,22,33))a=[1,2,3];b=[11,22,33];np.column_stack((a,b))a=[[1,2,3],[10,20,30]];b=[[11,22,33],[110,220,330]];np.column_sta...

2018-09-22 20:46:16 15939 1

原创 pyspark学习与工作历程

pyspark学习与工作历程 pyspark中的dataframe操作spark sql理解:属于架设在spark core之上的高级层。即在使用中,需要在SparkContext基础上架一层SQLContext。Spark SQL的RDD称为SchemaRDD。from pyspark import SQLContext, RowsqlCtx = SQLContext(sc)...

2018-06-21 13:40:50 2336

原创 空间多级图绘制

前段时间,没考虑太多,帮忙师妹做了一张空间图。实际发觉还是很耗时间,哎,接的招跪着也得走完,亲师妹呀....发觉这类表达还有所欠缺,但说不上来,下一步打算通过交互式的实现,也便于永久的调整数据,达到重复利用。因此,在此记录一下个人的简单成果,再接再厉。...

2018-03-15 13:51:57 382

转载 python_爬虫(初入门)

基本实现的功能:抓取、分析、存储。一、URL是什么?由哪些部分构成?    1、简单来说,URL即,浏览器端输入的 http://www.google.cn  字符串   \2、URI是什么?Web上每种可用的资源,如 HTML文档、图像、视频片段、程序等都由一个通用资源标志符(Universal Resource Identifier, URI)进行定位URI的组成:

2016-11-17 10:05:46 291

PortGo_Pro_11072018.exe

用于测试内部的freeswitch。 PortSIP PBX 是一种基于软件的 PBX,由于它是一个 SIP 标准软件 IP PBX,可以与其他应用程序集成,因此不仅可以取代旧式电话系统,还提供了一个完整的统一通信解决方案

2020-05-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除