自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

data_scientist的博客

佛为心,道为骨,儒为表,大度看世界;技在手,能在身,思在脑,从容过生活。

  • 博客(50)
  • 收藏
  • 关注

原创 Java调用tensorflow模型

注意、注意、注意:版本很重要,本文使用的版本是tensorflow1.13.1,其他版本很可能不成功。一、模型示例代码 vocab_dim = 128 batch_size = 64 n_epoch = 5 pad_sequences, labels_index, word_counts,n_classes=load_data() x_train,x...

2019-10-18 10:12:01 2434 1

原创 tensorflow serving部署keras或tf2.0模型

一、安装docker由于apt官方库里的docker版本可能比较旧,所以先卸载可能存在的旧版本:$ sudo apt-get remove docker docker-engine docker-ce docker.io更新apt包索引:$ sudo apt-get update安装以下包以使apt可以通过HTTPS使用存储库(repository):$ sudo ...

2019-10-17 19:51:01 2108 2

转载 Tensorflow学习笔记——图像预处理

请查看该博客:http://blog.csdn.net/cunyizhang/article/details/78980880 总结的很全面!

2018-03-21 14:53:07 506

转载 TensorFlow ConfigProto&GPU的使用

Tensorflow ConfigPrototf.ConfigProto一般用在创建session的时候。用来对session进行参数配置#tf.ConfigProto()的参数log_device_placement=True : 是否打印设备分配日志allow_soft_placement=True : 如果你指定的设备不存在,允许TF自动分配设备tf.ConfigProto(lo...

2018-03-09 11:12:29 428

原创 TensorFlow模型的存储、加载以及TensorBoard的使用

# -*- coding:utf-8 -*-"""#-------------------------------------@Project:tf_example@version:v1.0@date:2018/3/8-------------------------------------# @Brief:"""import loggingimport osimport...

2018-03-09 09:44:57 837

原创 TensorBoard的使用

TensorBoard 是 TensorFlow 自带的一个强大的可视化工具,也是一个 Web 应用程序套件。TensorBoard 目前支持 7 种可视化,即 SCALARS、IMAGES、AUDIO、GRAPHS、DISTRIBUTIONS、HISTOGRAMS 和 EMBEDDINGS。这 7 种可视化的主要功能如下。 ● SCALARS:展示训练过程中的准确率、损失值、权重/偏置的变化...

2018-03-07 14:24:34 425

原创 git相关命令

Git global setupgit config --global user.name "wangdong"git config --global user.email "wangdong@ibeifeng.com"Create a new repositorygit clone ssh://git@git.ibf.cn:10022/wangdong/Kf53ReceivePus...

2018-03-05 08:45:35 293

原创 常用机器学习算法优缺点

一、逻辑回归 1、优点 (1)简单、训练速度快 (2)容易理解 (3)可以用来进行特征的选择 2、缺点 (1)一般只能处理线性可分的二分类问题 (2)特征空间很大时,性能不是很好 (3)欠拟合 (4)两边的概率变化太小,没有区分度 (5)不能很好的处理大量多类特征 (6)多重共线性,但可以用L2正则化解决二、KNN算法 1、优点 (1)容易理解和可视化 (2)训练时...

2018-03-05 08:44:00 1315

转载 TensorFlow变量共享解析

转载自:http://blog.csdn.net/jerr__y/article/details/70809528name_scope: 为了更好地管理变量的命名空间而提出的。比如在 tensorboard 中,因为引入了 name_scope,我们的 Graph 看起来才井然有序。variable_scope: 大大大部分情况下,跟 tf.get_variable() 配合使用,实现变量

2018-01-25 11:39:59 747

转载 Word2Vec原理、训练算法介绍

mark一下出处,方便以后查看参考文献 1、http://www.cnblogs.com/pinard/p/7160330.html 2、http://blog.csdn.net/dn_mug/article/details/69852740 3、https://www.leiphone.com/news/201706/PamWKpfRFEI42McI.html

2018-01-16 11:01:19 1120

转载 文本主题模型之潜在语义分析(LDA:Latent Dirichlet Allocation)

1、LDA作用 传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,如TF-IDF等,这种方法没有考虑到文字背后的语义关联,可能在两个文档共同出现的单词很少甚至没有,但两个文档是相似的。 举个例子,有两个句子分别如下: “乔布斯离我们而去了。” “苹果价格会不会降?”

2018-01-15 15:47:13 10966

转载 文本主题模型之潜在语义分析(LSA)

转载地址:www.cnblogs.com/pinard/p/6805861.html在文本挖掘中,主题模型是比较特殊的一块,它的思想不同于我们常用的机器学习算法,因此这里我们需要专门来总结文本主题模型的算法。本文关注于潜在语义索引算法(LSI)的原理。1. 文本主题模型的问题特点     在数据分析中,我们经常会进行非监督学习的聚类算法,它可以对我们的特征数据进行非监督的聚类。而主题模型

2018-01-15 12:37:08 10007

原创 LSTM之时间序列预测

#-*- coding: utf-8 -*-import osimport sysimport timeimport numpy as npfrom keras.models import Sequentialfrom keras.models import load_modelfrom numpy import newaxisimport matplotlib.pyplot a

2018-01-12 17:18:22 2630 2

原创 LSTM之文本分类实例

待分类数据为已经分词的文本文档,其中每一行代表一篇文章,分词较为粗糙,未进行停用词过滤,使用停用词过滤后效果应该会有明显提升。 1、加载数据# -*- coding: utf-8 -*-import sysreload(sys)sys.setdefaultencoding('utf-8')def loadData(fileName):#读取分词数据,存储在list列表里,每个

2018-01-12 16:13:53 9559 3

原创 keras例子之迁移学习

1、抽取中间层特征from keras.applications.vgg19 import VGG19from keras.preprocessing import imagefrom keras.applications.vgg19 import preprocess_inputfrom keras.models import Modelimport numpy as npbas

2018-01-12 10:29:40 7636

原创 keras例子之Mnist案例

#-*- coding: utf-8 -*-"""mnist识别例子,使用卷积神经网络"""import osimport sysimport timeimport numpy as npfrom keras.datasets import mnistfrom keras.optimizers import SGD,RMSpropfrom keras.utils impor

2018-01-12 09:37:54 1129

原创 heamy之stacking和blending实例

1、stacking实例from heamy.dataset import Datasetfrom heamy.estimator import Regressor, Classifierfrom heamy.pipeline import ModelsPipelinefrom sklearn import cross_validationfrom sklearn.ensemble i

2018-01-11 17:12:21 4282 4

原创 hpsklearn调参实例

from __future__ import print_function# import numpy as npfrom sklearn import datasetsfrom sklearn.cross_validation import train_test_splitfrom hyperopt import tpeimport hpsklearnimport sysdef

2018-01-11 15:18:23 1326

原创 hyperopt调参实例——XGBoost

def xgb_train(dtrain, dtest, param, offline=True, verbose=True, num_boost_round=1000): if verbose: if offline: watchlist = [(dtrain, 'train'), (dtest, 'test')] else:

2018-01-11 14:08:09 4053

原创 XGBoost案例代码(一)——sklearn之交叉验证

#!/usr/bin/python'''Created on 1 Apr 2015@author: Jamie Hall'''import pickleimport xgboost as xgbimport numpy as npfrom sklearn.model_selection import KFold, train_test_split, GridSearchCVf

2018-01-11 11:07:44 7440 1

转载 XGBoost-Python完全调参指南-参数解释篇

为了方便查看,转载了这篇XGBoost调参指南 原文链接:http://blog.csdn.net/wzmsltw/article/details/50994481 XGBoost参数XGBoost的参数可以分为三种类型:通用参数、booster参数以及学习目标参数General parameters:参数控制在提升(boosting)过程中使用哪种booster,常用的booster

2018-01-10 14:39:25 767

转载 RF、GBDT、XGBoost、lightGBM原理与区别

RF、GBDT和XGBoost都属于集成学习(Ensemble Learning),集成学习的目的是通过结合多个基学习器的预测结果来改善单个学习器的泛化能力和鲁棒性。   根据个体学习器的生成方式,目前的集成学习方法大致分为两大类:即个体学习器之间存在强依赖关系、必须串行生成的序列化方法,以及个体学习器间不存在强依赖关系、可同时生成的并行化方法;前者的代表就是Boosting,后者的代表是Ba

2018-01-10 11:46:43 18560 1

原创 机器学习中不平衡学习方法总结二(实践)

# -*- coding:utf-8 -*-"""#-------------------------------------@author:wangdong@mail:aufe_wangdong@sina.cn@version:v1.0@date:2018/1/8-------------------------------------# @Brief:"""from

2018-01-08 15:57:34 8244 5

原创 机器学习中不平衡学习方法总结一(理论)

针对不平衡学习问题,主要有以下三种常见方式处理,总结如下,其中多数类样本统一用Smax表示,少数类样本统一用Smin表示: 1、欠抽样 1.1 随机欠抽样 随机欠采样顾名思义即从多数类Smax中随机选择少量样本E再合 并原有少数类样本作为新的训练数据集,新数据集为Smin+E,随机欠采样有两种类型分别为有放回和无放回两种,无放回欠采样在对多数类某样本被采 样后不会再被重复采样,有放回采样则有

2018-01-08 11:20:51 2656

转载 搜狗用户画像-经验分享之stacking与blending(转)

具体地址如下: http://prozhuchen.com/2016/12/28/CCF%E5%A4%A7%E8%B5%9B%E6%90%9C%E7%8B%97%E7%94%A8%E6%88%B7%E7%94%BB%E5%83%8F%E6%80%BB%E7%BB%93/主要借鉴一下stacking的理解思路,网上很多解释把stacking和blending搞混淆了。stacking

2017-12-26 11:17:41 5747 1

原创 keras 损失函数汇总

目标函数objectives目标函数,或称损失函数,是编译一个模型必须的两个参数之一:model.compile(loss=’mean_squared_error’, optimizer=’sgd’) 可以通过传递预定义目标函数名字指定目标函数,也可以传递一个Theano/TensroFlow的符号函数作为目标函数,该函数对每个数据点应该只返回一个标量值,并以下列两个参数为参数:y_true:真实

2017-11-25 16:22:50 17689

原创 DBSCAN 密度聚类算法原理及伪代码

DBSCAN 密度聚类算法原理及伪代码

2017-10-30 17:52:20 8961

转载 机器学习多分类和多标签处理方法

#coding=utf-8from sklearn import metricsfrom sklearn import cross_validationfrom sklearn.svm import SVCfrom sklearn.multiclass import OneVsRestClassifierfrom sklearn.preprocessing import MultiLabe

2017-08-15 17:47:19 6464 1

原创 通过cookielib获取cookies

适用于没有验证码登录,直接post参数登录的方式# -*- coding: utf-8 -*-import timeimport randomimport pickleimport cookielibimport osimport urllib2,urllibfrom selenium import webdriverimport sysreload(sys)sys.setdefa

2017-07-17 10:28:44 1540

原创 通过模拟浏览器获取cookies

def set_login_params_Job51(self): """ 51Job登录配置 2017-06-06 17:36 由于51Job的验证码是中文,所以这里仅仅采用chromeDriver打开Chrome浏览器, 自行在页面输入用户密码进行验证(60s内输入用户密码和验证码),然后程序通过定期访问页面来保持页

2017-07-17 10:23:53 2273

原创 爬虫时保持cookies一直有效的方法

# -*- coding: utf-8 -*-"""加载cookies文件,使用requests库爬取数据并动态更新cookies,可以使cookies不失效"""import pickleimport timeimport requestsimport randomclass Spider: def __init__(self,domain='51job.com'):

2017-07-17 10:17:17 24670 1

转载 【python】time,datetime,string相互转换

来源:http://essen.iteye.com/blog/1452098#把datetime转成字符串def datetime_toString(dt): return dt.strftime("%Y-%m-%d-%H")#把字符串转成datetimedef string_toDatetime(string): return datetime.strptime(string,

2017-06-08 16:59:17 4035

原创 NumPy random模块的使用

NumPy random模块的使用,防止混淆!详细使用例子参见该博客: http://blog.csdn.net/unin88/article/details/50570196

2017-05-16 17:09:55 391

原创 Pandas写入DataFrame到MongoDB数据库

#-*- coding:utf-8 -*-import sysimport pandas as pdimport jsonfrom pymongo import MongoClientreload(sys)sys.setdefaultencoding('utf-8')class MongoBase: def __init__(self,collection): s

2017-01-25 13:09:01 14554

原创 Pandas读取MongoDB数据库到DataFrame

#-*- coding:utf-8 -*-import sysimport pandas as pdfrom pymongo import MongoClientreload(sys)sys.setdefaultencoding('utf-8')class MongoBase: def __init__(self,collection): self.collecti

2017-01-25 11:35:18 3903

原创 Pandas写入数据到MySQL

#-*- coding:utf-8 -*-from sqlalchemy import create_engineclass mysql_engine(): user='******' passwd='******' host='******' port = '******' db_name='******' engine = create_engin

2017-01-25 10:51:07 2411

原创 Pandas读取MySQL数据到DataFrame

#-*- coding:utf-8 -*-from sqlalchemy import create_engineclass mysql_engine(): user='job_db' passwd='job_db' host='db.ibf.cn' port = '6603' db_name='job_db' engine = create_engi

2017-01-25 10:22:16 5339

原创 Python操作MongoDB数据库

import sysfrom pymongo import MongoClientreload(sys)sys.setdefaultencoding('utf-8')class MongoBase: def __init__(self,collection): self.collection=collection self.OpenDB() de

2017-01-25 10:08:54 417

原创 Python 操作MySql数据库

# -*- coding: utf-8 -*-import sysreload(sys)import MySQLdbsys.setdefaultencoding('utf-8')class MySqlBase: def __init__(self): self.myCon=MySQLdb.connect(host="*******",

2017-01-25 10:07:17 306

原创 Python登录qq邮箱发送邮件(附件)

# -*- coding: utf-8 -*-#导入smtplib和MIMETextimport smtplib,timefrom email.mime.text import MIMETextfrom email.mime.multipart import MIMEMultipartfrom email.mime.image import MIMEImageimport datetim

2017-01-23 17:14:00 2904

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除