2017年10月_mishidemudong

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

转载 #########WOE 评分模型在logistics regression算法在评分卡上的实践

以德国信用数据为例，用logistict regression算法做信用评分卡原理性实现，因此并未考虑feature selection.第一步：导入必要的库123import pandas as pdimport numpy as npfrom sklearn.cross_validation import train_te

2017-10-30 19:34:50 3046

转载评分卡模型剖析之一（woe、IV、ROC、信息熵）

信用评分卡模型在国外是一种成熟的预测方法，尤其在信用风险评估以及金融风险控制领域更是得到了比较广泛的使用，其原理是将模型变量WOE编码方式离散化之后运用logistic回归模型进行的一种二分类变量的广义线性模型。本文重点介绍模型变量WOE以及IV原理，为表述方便，本文将模型目标标量为1记为违约用户，对于目标变量为0记为正常用户；则WOE(weight ofEvidence)其实就是

2017-10-30 13:41:20 3770

转载数据挖掘模型中的IV和WOE详解

1.IV的用途IV的全称是Information Value，中文意思是信息价值，或者信息量。我们在用逻辑回归、决策树等模型方法构建分类模型时，经常需要对自变量进行筛选。比如我们有200个候选自变量，通常情况下，不会直接把200个变量直接放到模型中去进行拟合训练，而是会用一些方法，从这200个自变量中挑选一些出来，放进模型，形成入模变量列表。那么我们怎么去挑选入模变量呢？挑选入

2017-10-30 09:54:12 563

转载 spark dataframe API 整理 (差集等)

1，从列表中创建dataframe 列表的每一个元素转换成Row对象，利用parallelize()函数将列表转换成RDD，toDF()函数将RDD转换成dataframe from pyspark.sql import Row l=[Row(name='jack',age=10),Row(name='lucy',age=12)] df=sc.parallelize

2017-10-27 13:37:38 5607

转载梯度迭代树（GBDT）算法原理及Spark MLlib调用实例（Scala/Java/python）

梯度迭代树算法简介：梯度提升树是一种决策树的集成算法。它通过反复迭代训练决策树来最小化损失函数。决策树类似，梯度提升树具有可处理类别特征、易扩展到多分类问题、不需特征缩放等性质。Spark.ml通过使用现有decision tree工具来实现。梯度提升树依次迭代训练一系列的决策树。在一次迭代中，算法使用现有的集成来对每个训练实例的类别进行预测，然后将预测结

2017-10-26 20:24:14 867

转载 Python-Pandas 如何shuffle（打乱）数据？

在Python里面，使用Pandas里面的DataFrame来存放数据的时候想要把数据集进行shuffle会许多的方法，本文介绍两种比较常用而且简单的方法。应用情景：我们有下面以个DataFrame我们可以看到BuyInter的数值是按照0,-1,-1,2,2,2,3,3,3,3这样排列的，我们希望不保持这个次序，但是同时列属性又不能改变，即如下效果：

2017-10-25 10:52:34 7555

转载 Python日期的加减等操作

1. 日期输出格式化所有日期、时间的api都在datetime模块内。1. datetime => stringnow = datetime.datetime.now()now.strftime('%Y-%m-%d %H:%M:%S')#输出2012-03-05 16:26:23.870105strftime是datetime类的实例方法。2. string

2017-10-24 16:49:35 56387 1

转载图数据库-Neo4j介绍与Cypher入门

1、Neo4j简介2、单机安装和简单使用（社区版）3、Cypher Query Language3.1.基本语法3.2.模式实践3.3.Getting the Results You Want3.4.Compose Large Statements：编写大型语句3.5.Utilizing Data Structures3.

2017-10-24 11:03:26 591

转载浅谈sql中的in与not in,exists与not exists的区别

1、in和existsin是把外表和内表作hash连接，而exists是对外表作loop循环，每次loop循环再对内表进行查询，一直以来认为exists比in效率高的说法是不准确的。如果查询的两个表大小相当，那么用in和exists差别不大；如果两个表中一个较小一个较大，则子查询表大的用exists，子查询表小的用in；例如：表A(小表)，表B(大表)select * from A

2017-10-24 09:25:48 208

转载 ######好好好######职场新人，如何快速学习并做好PPT？

职场新人，如何快速学习并做好PPT？在职场混的人都知道，要想解决并做好一件事情。最好的技巧就是寻找问题背后的规律，最后再总结和复盘自己的经验。那么对于做PPT其实也是一样的道理。这次郑少就从模仿对象、建立素材库、设计文案三个方面分享一下。【这是一篇长文，仔细观看】一、模仿对象这次分享的模仿主要是方法和思维。其实无外乎是对知识进行归纳和分类，最后再进行总结。所以首先你需要找到这些对象。其实用度娘就

2017-10-20 17:35:22 520

转载 pandas 解析json文件为DataFrame的三种方式以及其灵活度和效率的比较

我所了解到的，将json串解析为DataFrame的方式主要有一样三种：利用pandas自带的read_json直接解析字符串利用json的loads和pandas的json_normalize进行解析利用json的loads和pandas的DataFrame直接构造(这个过程需要手动修改loads得到的字典格式)实验代码如下：[python] vi

2017-10-19 13:55:42 2085

转载 JPype：实现在python中调用JAVA

JPype：实现在python中调用JAVA一、JPype简述1.JPype是什么？ JPype是一个能够让 python 代码方便地调用 Java 代码的工具，从而克服了 python 在某些领域（如服务器端编程）中的不足。2.JPype与Jython(JPython后继者)的区别？ 1）运行环境不同：jython运行在j

2017-10-19 10:21:02 843

转载基于Hadoop分布式集群YARN模式下的TensorFlowOnSpark平台搭建

基于Hadoop分布式集群YARN模式下的TensorFlowOnSpark平台搭建1. 介绍　　在过去几年中，神经网络已经有了很壮观的进展，现在他们几乎已经是图像识别和自动翻译领域中最强者[1]。为了从海量数据中获得洞察力，需要部署分布式深度学习。现有的DL框架通常需要为深度学习设置单独的集群，迫使我们为机器学习流程创建多个程序（见Figure 1）。拥有独立的集群需要我

2017-10-19 09:53:30 2182 1

转载 python 的日志logging模块学习

1.简单的将日志打印到屏幕 import logginglogging.debug('This is debug message')logging.info('This is info message')logging.warning('This is warning message') 屏幕上打印:WARNING:r

2017-10-18 10:02:08 200

转载大数据在营销和销售中的十大应用

本文旨在给为大数据革命性改变市场营销和销售的众多趋势做一个概述，其中综合了十个有关报告，介绍了十个大数据在如今的市场营销和销售策略中的应用。其中增长很快的一个领域就是定价：管理价格以及通过销售网络传播和优化定价。在有大数据算法和先进的分析技术的今天，为给定的产品或服务实现价格优化越来越不在话下。就连在不是那么有弹性的大宗商品驱动行业中，简化日常定价决策也已经是非常常见的了。　　◆ ◆ ◆

2017-10-17 15:12:31 3160

转载 Navicat使用技巧（附快捷键）

1.有时按快捷键Ctrl+F搜某条数据的时候搜不到，但是能用sql查出来，这是怎么回事？Ctrl+F只能搜本页数据，不在本页的数据搜不到，navicat每页只显示1000条数据。在数据多的时候navicat是分页显示的，你可以按右下角的左/右箭头翻到上/下一页。这时候如果数据太多的话，这么翻页找这条数据太麻烦，还是用sql查找出来。2.在navicat上对某个字段按照升

2017-10-16 14:53:25 3294

这一两年Spark技术很火，自己也凑热闹，反复的试验、研究，有痛苦万分也有欣喜若狂，抽空把这些整理成文章共享给大家。这个系列基本上围绕了Spark生态圈进行介绍，从Spark的简介、编译、部署，再到编程模型、运行架构，最后介绍其组件SparkSQL、Spark Streaming、Spark MLib和Spark GraphX等。文章内容的整理一般是先介绍原理，随后是实战例子，由于面向的是入门读者

2017-10-13 16:54:58 249

转载 Spark入门实战系列--9.Spark GraphX介绍及实例

【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送–Spark入门实战系列》获取1、GraphX介绍1.1 GraphX应用背景Spark GraphX是一个分布式图处理框架，它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口，极大的方便了对分布式图处理的需求。众所周知•，社交网络中人与人之间有很多关系链，例如Twitter、Facebook

2017-10-13 16:49:06 453

转载 Factorization Machines 学习笔记

最近学习了一种叫做 Factorization Machines（简称 FM）的算法，它可对任意的实值向量进行预测。其主要优点包括: 1) 可用于高度稀疏数据场景；2) 具有线性的计算复杂度。本文将对 FM 框架进行简单介绍，并对其训练算法 — 随机梯度下降（SGD）法和交替最小二乘（ALS）法进行详细推导。相关链接：（一）预测任务（二）模型方程（三）回归和分

2017-10-13 11:32:40 476

转载 FM算法能够学习到原始特征的embedding表示

FM算法是CTR预估中的经典算法,其优势是能够自动学习出交叉特征.因为这种特性,FM在CTR预估上的效果会远超LR.说明：通过FM的公式可以看出,FM自动学习交叉是通过学习到每个特征xi的向量表示vi得到的.比如说,对于field A,其特征有100w种取值,如果使用one-hot编码。那么,每个特征需要使用100w维特征表示.使用了FM算法学习之后,比如说使用vi的特征维度是10维.

2017-10-13 11:30:43 889

转载 FM算法详解

1.FM背景在计算广告中，CTR预估(click-through rate)是非常重要的一个环节，因为DSP后面的出价要依赖于CTR预估的结果。在前面的相关博文中，我们已经提到了CTR中相关特征工程的做法。对于特征组合来说，业界现在通用的做法主要有两大类：FM系列与Tree系列。今天，我们就来讲讲FM算法。2.one-hote编码带来的问题FM(Factorization Machin

2017-10-13 11:27:22 1364

转载 Neo4j Cypher查询语言详解

Cypher介绍“Cypher”是一个描述性的图形查询语言，允许不必编写图形结构的遍历代码对图形存储有表现力和效率的查询。Cypher还在继续发展和成熟，这也就意味着有可能会出现语法的变化。同时也意味着作为组件没有经历严格的性能测试。Cypher设计的目的是一个人类查询语言，适合于开发者和在数据库上做点对点模式（ad-hoc）查询的专业操作人员（我认为这个很重要）。它的构念是基于英语单词和

2017-10-12 16:11:37 9100

知网Hownet情感词典.zip

该资料包含知网情感相关的词典，分为中英文单词表，每种都梳理完毕，并整理成单独文件，非常方便，有需要的话，请下载使用。

2020-05-09

mnist.pkl.gz数据文件

mnist.pkl.gz数据文件直接下载拷贝到keras的dataset下方便许多

2017-01-10

近红外猕猴桃测试分类数据

仅供分类算法测试用数据.数据内容为相隔两天的软的猕猴桃的近红外测试数据，标签为-1 和1，可以作为一个不同时间的猕猴桃的分类数据

2016-10-24

ROC曲线源代码包

非常齐全的各类函数包，想画什么样的ROC曲线，都有相应代码，可以自己学习，也可以二次开发进行定制。

2015-10-13

基于tiny210的SD卡MP3播放器系统代码

一个小小的例程，如题所述，可以完美运行，需要的同学下下来学习下~

2015-07-17

机器学习实战源代码

这是机器学习实战，树上的全部例子代码，需要的同学可以下下来看看，帮助学习。

2015-07-17

基于FPGA的视频图像采集系统的设计与实现

基于FPGA的视频图像采集系统的设计与实现，提出了可行的基于FPGA的采集系统的设计和实现方法。

2013-05-06

多人物识别

为多人物检测提出了一种研究方法，提出了算法设计等

2013-05-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

木东的博客

转载 #########WOE 评分模型在logistics regression算法在评分卡上的实践

转载评分卡模型剖析之一（woe、IV、ROC、信息熵）

转载数据挖掘模型中的IV和WOE详解

转载 spark dataframe API 整理 (差集等)

转载梯度迭代树（GBDT）算法原理及Spark MLlib调用实例（Scala/Java/python）

转载 Python-Pandas 如何shuffle（打乱）数据？

转载 Python日期的加减等操作

转载图数据库-Neo4j介绍与Cypher入门

转载浅谈sql中的in与not in,exists与not exists的区别

转载 ######好好好######职场新人，如何快速学习并做好PPT？

转载 pandas 解析json文件为DataFrame的三种方式以及其灵活度和效率的比较

转载 JPype：实现在python中调用JAVA

转载基于Hadoop分布式集群YARN模式下的TensorFlowOnSpark平台搭建

转载 python 的日志logging模块学习

转载大数据在营销和销售中的十大应用

转载 Navicat使用技巧（附快捷键）

转载倾情大奉送--Spark入门实战系列

转载 Spark入门实战系列--9.Spark GraphX介绍及实例

转载 Factorization Machines 学习笔记

转载 FM算法能够学习到原始特征的embedding表示

转载 FM算法详解

转载 Neo4j Cypher查询语言详解

知网Hownet情感词典.zip

mnist.pkl.gz数据文件

近红外猕猴桃测试分类数据

ROC曲线源代码包

基于tiny210的SD卡MP3播放器系统代码

机器学习实战源代码

基于FPGA的视频图像采集系统的设计与实现

多人物识别

空空如也

知网Hownet情感词典.zip

mnist.pkl.gz数据文件

近红外猕猴桃测试分类数据

ROC曲线 源代码包

基于tiny210的SD卡MP3播放器系统代码

机器学习实战源代码

基于FPGA的视频图像采集系统的设计与实现

多人物识别

空空如也

ROC曲线源代码包