2017年11月_Soyoger

12月 11月 10月 09月 08月 07月 06月 05月 04月

原创 jquery.dataTable.js 绘制表格使用详解

dataTable.js绘制表格真的是很不错，下面看看如何应用吧。先导入dataTable.js的库吧！定义html页面。<div> <div id="result"> <div class="close_btn"></div> <table class="table table-hover ta

2017-11-30 17:53:11 4220

原创 pandas使用get_dummies进行one-hot编码

官网：http://pandas.pydata.org/pandas-docs/stable/generated/pandas.get_dummies.htmlpandas.get_dummies(data,prefix=None, prefix_sep='_', dummy_na=False, columns=None,sparse=False, drop_first=False

2017-11-29 11:19:56 6014

原创谈谈batchsize参数

1.当数据量足够大的时候可以适当的减小batch_size,由于数据量太大，内存不够。但盲目减少会导致无法收敛，batch_size=1时为在线学习，也是标准的SGD，这样学习，如果数据量不大，noise数据存在时，模型容易被noise带偏，如果数据量足够大，noise的影响会被“冲淡”，对模型几乎不影响。2.batch的选择，首先决定的是下降方向，如果数据集比较小，则完全可以采用全数据集的形

2017-11-29 09:48:47 27270 3

原创 Frequency 频率统计

import nltkfrom nltk import FreqDist# 做个词库先corpus = 'this is my sentence ' \'this is my life ' \'this is the day'# 随便便tokenize⼀一下# 显然, 正如上⽂文提到,# 这⾥里里可以根据需要做任何的preprocessing:# stopwor

2017-11-27 16:46:37 2781

原创 NLTK完成简单的情感分析

# -*- coding: utf-8 -*-"""Created on Fri Oct 20 19:16:41 2017@author: ESRI"""from nltk.classify import NaiveBayesClassifier# 随手造点训练集s1 = 'this is a good book's2 = 'this is a awes

2017-11-27 16:40:43 10470

原创梯度下降---偏导数及其几何意义

在一元函数中，我们已经知道导数就是函数的变化率。对于二元函数我们同样要研究它的“变化率”。然而，由于自变量多了一个，情况就要复杂的多。一、几何意义　　在xOy平面内，当动点由P(x0,y0)沿不同方向变化时，函数f(x,y)的变化快慢一般说来是不同的，因此就需要研究f(x,y)在(x0,y0)点处沿不同方向的变化率。偏导数表示固定面上一点的切线斜率假设ƒ是一

2017-11-22 14:44:45 24811 1

原创 elasticsearch的python接口使用

elasticsearch-pyInstallationeditIt can be installed with pip:pip install elasticsearchThe legacy version for Elasticsearch version 2.x can be installed with pip:pip install elastic

2017-11-20 17:37:32 2421

原创 xgboost使用自定义的loss function

下面给一个官方demo代码：参考：https://github.com/dmlc/xgboost/blob/master/demo/guide-python/custom_objective.py#!/usr/bin/pythonimport numpy as npimport xgboost as xgb#### advanced: customized loss funct

2017-11-20 11:55:41 6127

原创模型融合(stacking&blending)

1. blending需要得到各个模型结果集的权重，然后再线性组合。"""Kaggle competition: Predicting a Biological Response.Blending {RandomForests, ExtraTrees, GradientBoosting} + stretching to[0,1]. The blending scheme is re

2017-11-19 20:15:54 6329 3

转载 xgboost相比传统gbdt有何不同？xgboost为什么快？xgboost如何支持并行？

看了陈天奇大神的文章和slides，略抒己见，没有面面俱到，不恰当的地方欢迎讨论：传统GBDT以CART作为基分类器，xgboost还支持线性分类器，这个时候xgboost相当于带L1和L2正则化项的逻辑斯蒂回归（分类问题）或者线性回归（回归问题）。传统GBDT在优化时只用到一阶导数信息，xgboost则对代价函数进行了二阶泰勒展开，同时用到了一阶和二阶导数。顺便提一下，xgboost工具支持自定...

2017-11-19 18:56:47 1237

原创朴素贝叶斯(Naive Bayes)，“Naive”在何处？

加上条件独立假设的贝叶斯方法就是朴素贝叶斯方法（Naive Bayes）。 Naive的发音是“乃一污”，意思是“朴素的”、“幼稚的”、“蠢蠢的”。咳咳，也就是说，大神们取名说该方法是一种比较萌蠢的方法，为啥？将句子（“我”,“司”,“可”,“办理”,“正规发票”) 中的（“我”,“司”）与（“正规发票”）调换一下顺序，就变成了一个新的句子（“正规发票”,“可”,“办理”, “我”, “司”)。...

2017-11-18 13:28:23 1495

原创机器学习里面的树形模型

1. 决策树不用考虑scaler。2, xgboost 缺失值都可以不用考虑。3.libSVM的数据格式及使用方法总结首先介绍一下 libSVM的数据格式Label 1:value 2:value ….Label：是类别的标识，比如上节train.model中提到的1 -1，你可以自己随意定，比如-10，0，15。当然，如果是回归，这是目标值，就要实事求是了

2017-11-17 14:35:44 2480

原创 elasticsearch-jdbc同步myslq数据到elasticsearch

一、linux上使用前提： 1）elasticsearch 2.3.2 安装成功，测试ok。 2）mysql安装成功，能实现增、删、改、查。可供测试的数据库为test，表为cc，具体信息如下：mysql> select * from cc;+----+------------+| id | name |+----+------------+| 1 | laoyan

2017-11-17 11:17:19 863

原创 JVM中的逃逸分析

逃逸分析(Escape Analysis)是目前Java虚拟机中比较前沿的优化技术。逃逸分析的基本行为就是分析对象动态作用域：当一个对象在方法中被定义后，它可能被外部方法所引用，例如作为调用参数传递到其他地方中，称为方法逃逸。例如：123456public static StringBuffer craeteStringB

2017-11-17 10:37:17 389

原创避免在循环体中声明创建对象

这种情况在我们的实际应用中经常遇到，而且我们很容易犯类似的错误，例如下面的代码：　　Java代码　　for (int i = 0; i 　　Object obj = new Object();　　System.out.println("obj= " + obj);　　}　　上面的做法会浪费较大的内存空间。正确的做法如下所示：　　Java代码

2017-11-17 09:24:56 7911 5

原创 java调用python脚本

用java调用python真的别扭，Jython不支持第三方库，然后用了Runtime.getRuntime().exec(arr);但是这样调用也出现好多问题，最终一部分python代码用bottle写了python Rest接口。package mnist;/** * Created by ESRI on 2017/11/14. */public class PythonDe

2017-11-15 21:49:56 524

原创 bottle创建python的rest接口

# -*- coding: utf-8 -*-"""Created on Wed Nov 15 16:00:06 2017@author: ESRI"""from PIL import Imageimport numpy as npimport pandas as pd from sklearn.externals import joblibfrom bottle import

2017-11-15 21:47:37 1257

原创 Jython调用不包含第三方库的python脚本

1、本地环境安装的是Python 2.7.112、用maven下载jython依赖"code" class="html"> org.python jython 2.7.0 3、python脚本编写#coding:utf-8 def adder(a, b): return a + b def myt

2017-11-15 08:51:33 5083 3

原创 numpy中的where()函数

test_data=np.where(df_test>120,1,0) where算是三目运算符，where(条件，真，假)Return elements, either from x or y, depending on condition.If only condition is given, return condition.nonzero().

2017-11-10 19:17:42 8824

原创 Python提取数字图片特征向量

引言在机器学习中有一种学习叫做手写数字识别，其主要功能就是让机器识别出图片中的数字，其步骤主要包括：图片特征提取、将特征值点阵转化为特征向量、进行模型训练。第一步便是提取图片中的特征提取。数据的预处理关系着后面模型的构建情况，所以，数据的处理也是机器学习中非常重要的一部分。下面我就说一下如何提取图片中的特征向量。图片灰度化 =>当我们拿到一种图片的时候，这张图片可能是多

2017-11-10 15:40:56 16355

原创 windows下的使用别人编译好的库文件进行安装xgboost

（0）前提是，你得下载好anaconda，并且安装之，我的下载地址如下（python3 windows 64位）https://repo.continuum.io/archive/Anaconda3-4.4.0-Windows-x86_64.exe（1）下载xgboost源码(这里直接用官方最新的源码，这里我们不需要用git clone --recursive,因为用的是编译好的dll

2017-11-09 17:22:01 1230

原创实战xgboost与sklearn与pandas训练模型

import cPickleimport xgboost as xgbimport numpy as npfrom sklearn.model_selection import KFold, train_test_split, GridSearchCVfrom sklearn.metrics import confusion_matrix, mean_squared_errorfrom

2017-11-09 16:32:24 3970

原创谷歌大脑自门控激活函数Swish

最近谷歌大脑公布了一个新的激活函数，叫做 Swish 激活函数。这个函数非常的有趣，很多人都把它应用到一些小的神经网络和大的神经网络中去测试它的性能。所以，我也打算去 kaggle 上面测试一些这个函数的性能如何。Swish 激活函数的数学公式非常的简单，即 f(x) = x * sigmoid(x) 。根据谷歌大脑的论文，该激活函数的性能比 ReLU 激活函数的性能要好很多。

2017-11-08 00:33:44 2933

转载深度学习：梯度消失和梯度爆炸

梯度消失主要是因为网络层数太多，太深，导致梯度无法传播。本质应该是激活函数的饱和性。DNN结果出现nan值？梯度爆炸，导致结果不收敛。都是梯度太大惹的祸，所以可以通过减小学习率（梯度变化直接变小）、减小batch size（累积梯度更小）、 features规格化（避免突然来一个大的输入）。RNN的梯度爆炸和消失问题不幸的是，实践中前面介绍的几种RNNs并不能很好的处理

2017-11-08 00:28:33 3704

原创 python读取zip压缩文件

import pandas as pdpd.set_option('display.max_columns', 500)import zipfilewith zipfile.ZipFile('KaggleCredit2.csv.zip', 'r') as z: f = z.open('KaggleCredit2.csv') data = pd.read_csv(f, inde

2017-11-07 22:56:25 9908

原创 sklearn机器学习常用数据处理总结

数据才是王道→数据预处理与数据集构建from IPython.display import Image%matplotlib inline# Added version check for recent scikit-learn 0.18 checksfrom distutils.version import LooseVersion as Versionfrom sklear

2017-11-07 22:18:41 2507 1

原创 pandas常见的时间处理函数

pandas常见的时间处理函数：df.loc[mask, 'origin_order_unix_time'] = df.loc[mask, 'order_unix_time']df.loc[mask, c] = df.loc[mask, c].apply(lambda x: datetime.datetime.fromtimestamp(x))df.loc[mask, 'date']

2017-11-07 22:06:16 3121

原创 sklearn机器学习常用过程总结

由于前面对sklearn或多或少接触了一下，但是不深入，随着最近学习，我下面介绍一下机器学习常用过程。1. 加载数据集scikit-learn中自带了一些数据集，比如说最著名的Iris数据集。数据集中第3列和第4列数据表示花瓣的长度和宽度。而类别已经转成了数字，比如0=Iris-Setosa, 1=Iris-Versicolor, 2=Iris-Virginica.from di

2017-11-07 21:23:15 3554

原创服务化实战之 dubbo、dubbox、motan、thrift、grpc等RPC框架比较及选型

原文：http://blog.csdn.net/liubenlong007/article/details/54692241

2017-11-06 11:14:34 1062

原创大数据架构中使用JSON-RPC好，还是RESTful API好？

对外开放给全世界的API推荐采用RESTful，是否严格按照规范是一个要权衡的问题。要综合成本、稳定性、易用性、业务场景等等多种因素。看到知乎上有这样一个问题WEB开发中，使用JSON-RPC好，还是RESTful API好？还有其他优秀的推荐方案吗？------------------------------------------------------------

2017-11-06 11:10:17 5225

原创 Elasticsearch2.3.2创建索引java代码及异常处理

首先本文代码参考和引用了本博客的代码：http://www.cnblogs.com/coderdxj/p/6856145.htmlpackage com.test.entity;public class Blog { private Integer id; private String title; private String posttime; pri

2017-11-06 10:40:39 1202 2

原创理解GBDT算法（一）——理论

关于决策树decision tree的组合模型有两种：random forest 和 GBDT （gradient boosting decision tree）。1. GBDT的基本思想——积跬步以至千里我们前面讲到，一棵决策树很容易出现过拟合现象。但是，我们把训练集通过反复学习（或者采样，或者不采样），得到多颗决策树，这样就可以一定程度上避免过拟合。前面的random fore

2017-11-06 10:00:07 865

原创 opencv安装与python cv2安装

1，opencv安装点击下载的opencv-2.4.12.exe，一路next下去，例如本人安装到E盘根目录下。安装完成后，将E:\opencv2_4_12\build\python\2.7\x64下的cv2.pyd拷贝到E:\Python27\Lib\site-packages下面。在cmd下面输入python进入python命令行，然后输入import cv2，如没有错误信息证明安装

2017-11-05 16:20:50 2559

原创 java深度学习（一）Maven创建一个新的ND4J工程

Starting a New ND4J ProjectTo create a new ND4J project within IntelliJ, either click on “Open Project” on IntelliJ’s opening screen, or click on the File/Open tab, and choose “nd4j.” If you have cl

2017-11-04 21:48:26 4387

原创深度学习中的Dropout原理介绍

如果网络的问题在于连接密集，那么久强制让它稀疏，基于这种想法的算法就是dropout算法。一：引言　　因为在机器学习的一些模型中，如果模型的参数太多，而训练样本又太少的话，这样训练出来的模型很容易产生过拟合现象。在训练bp网络时经常遇到的一个问题，过拟合指的是模型在训练数据上损失函数比较小，预测准确率较高（如果通过画图来表示的话，就是拟合曲线比较尖，不平滑，泛化能力不好），

2017-11-04 18:27:12 4623 1

原创 pySpark环境搭建

1.序由于笔者目前用python比较多，所以想安装下pySpark，并且在Anaconda2中调用。（1）jdk-8u91-windows-x64.exe （2）spark-1.6.0-bin-hadoop2.6.0.tgz2.安装（1）jdk默认安装（2）spark-1.6.0-bin-hadoop2.6.0.tgz先进行解压。假设目录为E:\spark-1.6.0-

2017-11-02 20:45:34 8510

原创 python 数据离散化和面元划分

数据挖掘中有些算法，特别是分类算法，只能在离散型数据上进行分析，然而大部分数据集常常是连续值和离散值并存的。因此，为了使这类算法发挥作用，需要对数据集中连续型属性进行离散化操作。那么，如何对连续型属性离散化呢?常见的有等宽分箱法，等频分箱法：等宽分箱法的思想是，将数据均匀划分成n等份，每份的间距相等。等频分箱法的思想是，将观察点均匀分成n等份，每份的观察点数相同。在对数据离散化前，

2017-11-02 19:51:51 3484

转载机器学习中的数据预处理（sklearn preprocessing）

Standardization即标准化，尽量将数据转化为均值为零，方差为一的数据，形如标准正态分布（高斯分布）。实际中我们会忽略数据的分布情况，仅仅是通过改变均值来集中数据，然后将非连续特征除以他们的标准差。sklearn中 scale函数提供了简单快速的singlearray-like数据集操作。一、标准化，均值去除和按方差比例缩放（Standardization, or mean remo

2017-11-02 19:42:59 1517

原创量化投资 -获取数据（一）入门篇

量化的第一步就是获取数据，这里用python实时获取股票数据的类库tusharewww.tushare.org使用前提安装Python安装pandaslxml也是必须的，正常情况下安装了Anaconda后无须单独安装，如果没有可执行：pipinstall lxml建议安装Anaconda（http://www.continuum.io/downloads），一次安装包括

2017-11-01 17:22:43 5115

JAVA码头船只出行及配套货柜码放管理系统的设计与实现

JAVA码头船只出行及配套货柜码放管理系统的设计与实现 1 资源目录介绍 2 安装配置 3 前期准备 a、安装好MySQL数据库 b、安装配置java环境 c、安装配置好Tomcat 4 初始化数据库 a、创建数据库 b、执行数据库脚本文件，初始化数据库 5 部署系统 6 启动测试

2022-12-02

基于Java的银行排号系统的设计与实现

基于Java的银行排号系统的设计与实现 1 资源目录介绍 2 安装配置 3 前期准备 a、安装好MySQL数据库 b、安装配置java环境 c、安装配置好Tomcat 4 初始化数据库 a、创建数据库 b、执行数据库脚本文件，初始化数据库 5 部署系统 6 启动测试

2022-12-02

基于java的保险业务管理系统的设计与实现

基于java的保险业务管理系统的设计与实现 1. 源码 2. 数据库 3. 报告文档 4. 安装部署说明视频

2022-11-30

java程序设计超市积分管理系统源码和报告

java程序设计超市积分管理系统源码和报告 1. 源码 2. 报告 3. 设计思路 4. 安装部署说明

2022-11-30

100套BI大屏大数据可视化看板原型设计方案

2022-11-30

机器学习特征选择方法综述

2022-11-30

Ganglia监控安装手册

1. 环境规划 2. 基础环境准备 3. Ganglia监控安装 4. 测试与应用

2022-11-30

Linux时间同步方式和操作方式

#设置ntp日志的path statsdir /var/log/ntp/ #设置ntp日志文件 logfile /var/log/ntp/ntp.log

2022-11-30

SMO算法学习最好的资料

SMO算法由Microsoft Research的John C. Platt在1998年提出，并成为最快的二次规划优化算法，特别针对线性SVM和数据稀疏时性能更优。关于SMO最好的资料就是他本人写的《Sequential Minimal Optimization A Fast Algorithm for Training Support Vector Machines》了。

2022-11-30

R语言金融量化-上证指数某股票的模型分析收益率

1. 金融量化-上证指数某股票的模型分析收益率 2. R语言版本

2022-11-30

上证指数R语言统计分析

2022-11-30

R语言版本的词频统计wordcount

R语言版本的词频统计

2022-11-30

R语言版本的PM2.5分析AQI报告和代码

2022-11-30

利用机器学习预测2022年的世界杯冠军

1. 资源是一个完整的2022年世界杯预测的代码和数据集 2. 使用docker部署可视化训练系统 3. python 代码 4. 三步就可以完成模型训练和预测 5. readme包括完整的执行步骤说明

2022-11-30

Hbase优化-参数优化

本文主要是从HBase应用程序设计与开发的角度，总结几种常用的性能优化方法。 1. 表的设计 2. 写表操作 3. 读表操作 4. 数据计算

2022-11-28

HBase优化-系统架构

HBase性能调，从架构方面的调优。

2022-11-28

企业级大数据平台CDH详细搭建过程

1. CDH架构及安装 2. Hadoop安装 3. Hive安装 4. Hbase安装 5. Spark安装 6. Kafka安装 7. 其他安装测试

2022-11-28

python工程师面试题汇总

内容包括： 1. python基础知识面试 2. python高级知识 3. 设计模式 4. 常考算法

2022-11-26

精通 Java 必备的 100 道面试题

2022-03-13

Linux运维必备工作常用shell脚本.pdf

自动化解放你的双手。

2021-12-12

Mysql完整的优化知识点.xmind

Mysql完整的优化知识点思维导图。

2021-09-19

中文自然语言处理中文分词训练语料

本次提供的中文汉语语料syj_trainCorpus_utf8.txt全网免费，转载需要注明出处，语料是作者通过爬取的短文本和网络上的预料处理、合并生成的。整个语料大小264M，包含1116903条数据，数据用空格隔开，可以用来训练分词模型。

2018-07-02

阿萨姆-机器学习实践_PPT

阿萨姆-机器学习实践_PPT，完整的介绍机器学习流程。实际问题抽象化数据与特征工程模型选择与评估模型调试与提升机器学习101

2018-03-21

TensorFlow数据读取

TensorFlow数据读取。

2017-08-17

Google Wide&&Deep Model 的keras实现

2017-07-08

提问的艺术-让 ChatGPT 导出高质量答案.pdf

提问的艺术——让 ChatGPT 导出高质量答案.pdf 在 ChatGPT 中，为了获得最佳的文字产出，正确提示的方法就成了重点。有了提示（Prompting）这份藏宝图，我们可以化身宝藏猎人，在语言模型这个宝藏迷宫里，开启一个个宝箱——输出的语料文本具备相关性、准确度、高质量。了解 ChatGPT 的功能、限制，至关重要。该模型能够生成类人语料文本，如果缺乏合适的引导，我们有可能始终无法产生理想的输出。此乃提示工程的用武之地，假设提供的指令清晰、具体，我们可以指导模型的输出，确保内容相关。提示公式（prompt formular）——提示的特定格式，一般包含 3 个主要元素：任务（task）：一份清晰简洁的陈述，提示要求模型生成的内容。指令（instructions）：在生成文本时，模型应该遵循什么。角色（role）：在生成文本时，模型应该扮演什么。

2023-04-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

JAVA码头船只出行及配套货柜码放管理系统的设计与实现

基于Java的银行排号系统的设计与实现

基于java的保险业务管理系统的设计与实现

java程序设计超市积分管理系统源码和报告

100套BI大屏大数据可视化看板原型设计方案

机器学习特征选择方法综述

Ganglia监控安装手册

Linux时间同步方式和操作方式

SMO算法学习最好的资料

R语言金融量化-上证指数某股票的模型分析收益率

上证指数R语言统计分析

R语言版本的词频统计wordcount

R语言版本的PM2.5分析AQI报告和代码

利用机器学习预测2022年的世界杯冠军

Hbase优化-参数优化

HBase优化-系统架构

企业级大数据平台CDH详细搭建过程

python工程师面试题汇总

精通 Java 必备的 100 道面试题

Linux运维必备工作常用shell脚本.pdf

Mysql完整的优化知识点.xmind

中文自然语言处理中文分词训练语料

阿萨姆-机器学习实践_PPT

TensorFlow数据读取

Google Wide&amp;&amp;Deep Model 的keras实现

提问的艺术-让 ChatGPT 导出高质量答案.pdf

产品经理Axure必备-自制中继器下拉选择框组件

JAVAWEB校园二手平台项目.rar

JAVA网络考试系统的设计与实现.rar

JAVA健康管理系统

JAVA医院管理住院系统的研究与实现

基于JAVA的医院在线挂号

JAVA银行柜员业务绩效考核系统的设计与实现

JAVA酒店管理系统的设计与实现

空空如也

Google Wide&&Deep Model 的keras实现