2018年12月_hejp_123

原创 Flask框架创建模型API接口并部署上线

模型训练后如何将模型打包上线，下面用Flask框架实现模型的部署和实时预测。直接上干货,文件名称为flask_model.pyimport numpy as npfrom flask import Flaskfrom flask import requestfrom flask import jsonifyfrom sklearn.externals import joblib...

2018-12-26 13:38:54 7643 12

转载 gensim计算文本相似度

文章目录1、gensim使用流程2、代码实现3、过程拆解3.1、生成分词列表3.2、基于文本集建立`词典`，获取特征数3.3、基于词典建立`语料库`3.4、使用`TF-IDF`模型处理语料库，并建立`索引`3.5、用词典把搜索词转成稀疏向量3.6、相似度计算4、附录1、gensim使用流程2、代码...

2018-12-29 16:31:49 3349 2

原创 window系统中pyhanlp自然语言处理工具的安装教程

安装pyhanlp前需要安装 java环境：java的安装和配置，然后开始安装了如果安装成功，就查看java版本。1.安装 JPype1在python非官方库网站上下载库jpype1的whl文件，文件链接:https://download.lfd.uci.edu/pythonlibs/o4uhg4xd/JPype1-0.6.3-cp36-cp36m-win_amd64.whl,下载...

2018-12-29 10:07:13 613

转载 xgboost的介绍和模型调参

译文：Complete Guide to Parameter Tuning in XGBoost简介当模型没有达到预期效果的时候，XGBoost就是数据科学家的最终武器。XGboost是一个高度复杂的算法，有足够的能力去学习数据的各种各样的不规则特征。用XGBoost建模很简单，但是提升XGBoost的模型效果却需要很多的努力。因为这个算法使用...

2018-12-26 13:59:04 669

转载常用的中文分词工具介绍

本文首先介绍下中文分词的基本原理，然后介绍下国内比较流行的中文分词工具，如jieba、SnowNLP、THULAC、NLPIR，上述分词工具都已经在github上开源，后续也会附上github链接，以供参考。1.中文分词原理介绍1.1 中文分词概述中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个...

2018-12-20 17:12:14 8427

原创数据预处理

1.数据离散化import pandashour_cut =[-1,8,16,23]hour_name = ['1','2','3'] Train_oper['time_hour_cut'] = pd.cut(Train_oper['time_hour'],hour_cut,labels = hour_name)Train_oper['time_hour_cut'].value_c...

2018-12-20 16:46:28 150

原创 gevent 高性能并发操作

# 使用gevent实现高性能并发操作from gevent import monkey monkey.patch_all() from flask import Flask from gevent import pywsgi app = Flask(__name__) @app.route('/') def index(): return('Hello hejipei...

2018-12-20 16:42:45 493

原创 python实现点击率预估gbdt_lr

GBDT+LR做点击率预估利用skitlearn做了一个简单的实现：# 弱分类器的数目n_estimator = 10# 随机生成分类数据。X, y = make_classification(n_samples=80000)# 切分为测试集和训练集，比例0.5X_train, X_test, y_train, y_test = train_test_split(X, y, te...

2018-12-20 16:26:48 1214

原创特征工程

未完待续

2018-12-20 16:17:15 154

原创文本数据序列化

结巴文本分词--文本序列化处理import jiebafrom sklearn.model_selection import train_test_splitfrom keras.preprocessing.text import Tokenizerfrom keras.preprocessing.sequence import pad_sequences首先对语句进行分析: x_t...

2018-12-20 15:25:41 1826

原创基于sklearn和keras的数据切分与交叉验证

在训练深度学习模型的时候，通常将数据集切分为训练集和验证集．Keras提供了两种评估模型性能的方法：使用自动切分的验证集使用手动切分的验证集 1.自动切分在Keras中，可以从数据集中切分出一部分作为验证集，并且在每次迭代(epoch)时在验证集中评估模型的性能．具体地，调用model.fit()训练模型时，可通过validation_split参数来指定从数据集中切分出验证集...

2018-12-20 14:42:01 498

原创基于sklearn的文本特征抽取

理论机器学习的样本一般都是特征向量，但是除了特征向量以外经常有非特征化的数据，最常见的就是文本结构化数据当某个特征为有限的几个字符串时，可以看成一种结构化数据，处理这种特征的方法一般是将其转为独热码的几个特征。例如仅能取三个字符串的特征：a,b,c，可以将其转换为001,010,100的三个特征。非结构化数据当特征仅是一系列字符串时，可以使用词袋法处理，这种方法不考虑词汇顺序，...

2018-12-20 13:54:01 411

人生百态361