自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

人生百态361

一直在进步,从未间断过,沉迷于人工智能无法自拔!!!

  • 博客(12)
  • 收藏
  • 关注

原创 Flask框架创建模型API接口并部署上线

模型训练后如何将模型打包上线,下面用Flask框架实现模型的部署和实时预测。直接上干货,文件名称为flask_model.pyimport numpy as npfrom flask import Flaskfrom flask import requestfrom flask import jsonifyfrom sklearn.externals import joblib...

2018-12-26 13:38:54 7643 12

转载 gensim计算 文本相似度

文章目录1、gensim使用流程2、代码实现3、过程拆解3.1、生成分词列表3.2、基于文本集建立`词典`,获取特征数3.3、基于词典建立`语料库`3.4、使用`TF-IDF`模型处理语料库,并建立`索引`3.5、用词典把搜索词转成稀疏向量3.6、相似度计算4、附录1、gensim使用流程2、代码...

2018-12-29 16:31:49 3349 2

原创 window系统中pyhanlp自然语言处理工具的安装教程

安装pyhanlp前需要安装 java环境:java的安装和配置,然后开始安装了如果安装成功,就查看java版本。1.安装 JPype1在python非官方库网站上下载库jpype1的whl文件,文件链接:https://download.lfd.uci.edu/pythonlibs/o4uhg4xd/JPype1-0.6.3-cp36-cp36m-win_amd64.whl,下载...

2018-12-29 10:07:13 613

转载 xgboost的介绍和模型调参

译文:Complete Guide to Parameter Tuning in XGBoost简介当模型没有达到预期效果的时候,XGBoost就是数据科学家的最终武器。XGboost是一个高度复杂的算法,有足够的能力去学习数据的各种各样的不规则特征。用XGBoost建模很简单,但是提升XGBoost的模型效果却需要很多的努力。因为这个算法使用...

2018-12-26 13:59:04 669

转载 常用的中文分词工具介绍

本文首先介绍下中文分词的基本原理,然后介绍下国内比较流行的中文分词工具,如jieba、SnowNLP、THULAC、NLPIR,上述分词工具都已经在github上开源,后续也会附上github链接,以供参考。1.中文分词原理介绍1.1 中文分词概述中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个...

2018-12-20 17:12:14 8427

原创 数据预处理

1.数据离散化import pandashour_cut =[-1,8,16,23]hour_name = ['1','2','3'] Train_oper['time_hour_cut'] = pd.cut(Train_oper['time_hour'],hour_cut,labels = hour_name)Train_oper['time_hour_cut'].value_c...

2018-12-20 16:46:28 150

原创 gevent 高性能并发操作

# 使用gevent实现高性能并发操作from gevent import monkey monkey.patch_all() from flask import Flask from gevent import pywsgi app = Flask(__name__) @app.route('/') def index(): return('Hello hejipei...

2018-12-20 16:42:45 493

原创 python实现点击率预估gbdt_lr

GBDT+LR做点击率预估利用skitlearn做了一个简单的实现:# 弱分类器的数目n_estimator = 10# 随机生成分类数据。X, y = make_classification(n_samples=80000)# 切分为测试集和训练集,比例0.5X_train, X_test, y_train, y_test = train_test_split(X, y, te...

2018-12-20 16:26:48 1214

原创 特征工程

未完待续

2018-12-20 16:17:15 154

原创 文本数据序列化

结巴文本分词--文本序列化处理import jiebafrom sklearn.model_selection import train_test_splitfrom keras.preprocessing.text import Tokenizerfrom keras.preprocessing.sequence import pad_sequences首先对语句进行分析: x_t...

2018-12-20 15:25:41 1826

原创 基于sklearn和keras的数据切分与交叉验证

在训练深度学习模型的时候,通常将数据集切分为训练集和验证集.Keras提供了两种评估模型性能的方法:使用自动切分的验证集 使用手动切分的验证集 1.自动切分在Keras中,可以从数据集中切分出一部分作为验证集,并且在每次迭代(epoch)时在验证集中评估模型的性能.具体地,调用model.fit()训练模型时,可通过validation_split参数来指定从数据集中切分出验证集...

2018-12-20 14:42:01 498

原创 基于sklearn的文本特征抽取

理论机器学习的样本一般都是特征向量,但是除了特征向量以外经常有非特征化的数据,最常见的就是文本结构化数据当某个特征为有限的几个字符串时,可以看成一种结构化数据,处理这种特征的方法一般是将其转为独热码的几个特征。例如仅能取三个字符串的特征:a,b,c,可以将其转换为001,010,100的三个特征。非结构化数据当特征仅是一系列字符串时,可以使用词袋法处理,这种方法不考虑词汇顺序,...

2018-12-20 13:54:01 411

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除