ljtyxl-CSDN博客

翻译 Deep Learning textbook

The Deep Learning textbook is a resource intended to help students and practitioners enter the field of machine learning in general and deep learning in particular. The online version of the book is n...

2019-03-18 22:15:19 291

转载机器学习研究与开发平台的选择

目前机器学习可以说是百花齐放阶段，不过如果要学习或者研究机器学习，进而用到生产环境，对平台，开发语言，机器学习库的选择就要费一番脑筋了。这里就我自己的机器学习经验做一个建议，仅供参考。　　　　首先，对于平台选择的第一个问题是，你是要用于生产环境，也就是具体的产品中,还是仅仅是做研究学习用？1. 生产环境中机器学习平台的搭建　　　　如果平台是要用于生产环境的话，接着有一个问题，就是对产品...

2019-03-18 22:13:12 140

转载日志和告警数据挖掘经验谈

最近参与了了一个日志和告警的数据挖掘项目，里面用到的一些思路在这里和大家做一个分享。　　　　项目的需求是收集的客户系统一个月300G左右的的日志和告警数据做一个整理，主要是归类(Grouping)和关联(Correlation)，从而得到告警和日志的一些统计关系，这些统计结果可以给一线支持人员参考。　　　　得到的数据主要分为两部分，一部分是告警的历史数据，这部分数据很少，只有50M左...

2019-03-18 22:11:43 327

转载数理统计（1）

MCMC(四)Gibbs采样摘要: MCMC(一)蒙特卡罗方法 MCMC(二)马尔科夫链 MCMC(三)MCMC采样和M-H采样 MCMC(四)Gibbs采样在MCMC(三)MCMC采样和M-H采样中，我们讲到了M-H采样已经可以很好的解决蒙特卡罗方法需要的任意概率分布的样本集的问题。但是M-H采样有两个缺点：一是需要计算接受率，在阅读全文MCMC(三)MCMC采样和M-H采样摘要...

2019-03-18 21:58:54 241

转载条件随机场、CBOW、word2vect、skip-gram、负采样、分层softmax（1）

用gensim学习word2vec摘要: 在word2vec原理篇中，我们对word2vec的两种模型CBOW和Skip-Gram，以及两种解法Hierarchical Softmax和Negative Sampling做了总结。这里我们就从实践的角度，使用gensim来学习word2vec。 1. gensim安装与概述 gensim是一word2vec原理(三) 基于Neg...

2019-03-18 21:55:24 489

原创 GBDT 详解

gbdt 的算法的流程？ gbdt 如何选择特征？ gbdt 如何构建特征？ gbdt 如何用于分类？ gbdt 通过什么方式减少误差？ gbdt的效果相比于传统的LR，SVM效果为什么好一些？ gbdt 如何加速训练？ gbdt的参数有哪些，如何调参？ gbdt 实战当中遇到的一些问题？ gbdt的优缺点？GBDT 详解https://blog.csdn....

2019-03-18 09:39:51 566 1

原创 TensorFlow读取自己数据集的几个小方法

1. mat -> ndarray数据处理经常用到matlab,matlab中数据保存格式常为.mat,因此首先提供一份从mat转到ndarray的代码.#读取.mat格式数据#.mat 中包含trainFeatures矩阵import tensorflow as tfimport osimport numpy as npimport scipy.io #for load m...

2019-03-18 09:35:59 4218 2

原创 logistics 与最大熵模型原理及python代码实现

Logistic Regression（逻辑回归）原理及公式推导https://blog.csdn.net/programmer_wei/article/details/52072939逻辑回归原理详细推导https://blog.csdn.net/qq_38923076/article/details/82925183逻辑回归跟最大熵模型到底有啥区别呢？简单粗暴的回答是：...

2019-03-17 21:45:24 926

转载命名实体识别以及词性自动标注

数据挖掘的基本任务基本任务包括利用分类与预测、聚类分析、关联规则、时序模式、偏差检测、智能推荐等方法，帮助企业提取数据中蕴含的商业价值，提高企业的竞争力。就是通过选择'多个特征'，进行数据分析，得出结果。简单介绍一下什么是命名实体识别及其在实现过程中将会遇到的问题。命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的...

2019-03-17 17:20:34 2043

翻译 The equivalence of logistic regression and maximum entropy models

John Mount∗ September 23, 2011 AbstractAs our colleague so aptly demonstrated ( http://www.win-vector.com/blog/2011/09/the-simplerderivation-of-logistic-regression/ (link) ) there is one derivatio...

2019-03-16 14:22:31 1137

转载 NLP各种词库

https://github.com/xianhu/funNLP最近需要从文本中抽取结构化信息，用到了很多github上的包，遂整理了一下，后续会不断更新。很多包非常有趣，值得收藏，满足大家的收集癖！如果觉得有用，请分享并star，谢谢！涉及内容包括：中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、手机号抽取、身份证抽取、邮箱抽取、中日文人名库、中文缩写库、拆...

2019-03-14 11:18:46 10409 1

转载大规模图搜索和实时计算在阿里反作弊系统中的应用

经过多年在全球最大的电商平台大数据上的沉淀和积累，阿里电商反作弊形成了一套监控预警、识别分析和处罚管控的多维度监管机制，特别是对虚假交易的数据监控和算法识别上应用了覆盖全链路大数据的实时分析处理能力以及大规模图搜索技术来鉴别作弊行为。作者：涵空针对电商平台上的作弊行为，阿里巴巴一直秉承着零容忍的态度，在虚假交易的识别防控以及处罚力度上没有最强只有更强。经过多年在全球最大的电商平台大数据上的...

2019-03-13 23:04:51 322

转载敏感词屏蔽

前言全文约1800字，阅读需3分钟。最近对直播比较感兴趣，被问到一个问题——如何屏蔽弹幕中的不良内容？于是便有了如下的学习内容。不止是弹幕噢~什么是敏感词汇？Q：哪些词算是敏感词汇？A：敏感词可大致分为以下几类：政治相关和人名、迷信邪教、黄赌毒、枪支弹药类、骂人讽刺类、时事类、广告和非法信息、其他。（网上有很多专门的敏感词库，我在网盘里上传了一份名为百度内部的敏感词文件，仅供查...

2019-03-13 23:01:49 5433 1

原创作弊与反作弊

简介全文约3000字，阅读大约需要5分钟。你将看到以下内容：广告作弊与反作弊百度SEO反作弊淘宝电商反作弊互联网作弊是什么？互联网作弊是一种很普遍的行为，就我们所最熟悉的来说，有电商和O2O的刷单刷信誉行为、广告作弊等，具体分类如下图：广告作弊与反作弊1.背景：互联网广告成为主流2.数字营销(互联网广告)分两类：●品牌广告：以品牌宣传为主，多以千次曝光的...

2019-03-13 22:54:09 3301

转载基于 Google 搜索的半自动推荐

与统计学相比，基于内容来向用户推荐相似的内容，往往更容易获得。对于推荐来说，则有两种方式：手动推荐自动推荐手动推荐。在技术领域，作者通常比大多数读者更专业，他们往往知道什么是读者需要的。如，你看了一个 React 相关的文章，你可能会需要 Redux 相关的内容。自动推荐。需要一些前提条件：融合现有系统的数据信息，获取一些用户的信息。随后，再计算出相关的内容，最后返回给读者。而在...

2019-03-13 22:16:09 231

转载基于统计与评分

推荐系统推荐系统是一种信息过滤系统，用于预测用户对物品的“评分”或“偏好”。对于推荐系统系统来说，目前采用的主要方式是：基于内容推荐：内容之间的相似度，如文章的标签、电影的属性、书籍的分类。协同过滤（待实现）：用户之间的相似度，如喜欢看科幻片的 A、B 用户、并且都看过 a 电影，A 喜欢看的 c 电影，B 也可能喜欢 c 电影。要实现这两种方式有一个前提是，用户数据。特别是...

2019-03-13 22:14:44 883

转载 awk 手册

简体中文版由bones7456 (http://li2z.cn)整理. 原文:应该是http://phi.sinica.edu.tw/aspac/reports/94/94011/但是原文很乱. 说明:之前也是对awk几乎一无所知,无意中看到这篇文章,网上一搜,居然没有像样的简体中文版.有的也是不怎么完整,或者错误一大堆的.于是就顺手整理了下这篇文章.通过整理这篇文章,自己也渐渐掌握了awk...

2019-03-13 22:01:08 206

转载 nlp中的词向量对比：word2vec/glove/fastText/elmo/GPT/bert

本文以QA形式对自然语言处理中的词向量进行总结：包含word2vec/glove/fastText/elmo/bert。目录一、文本表示和各词向量间的对比1、文本表示哪些方法？2、怎么从语言模型理解词向量？怎么理解分布式假设？3、传统的词向量有什么问题？怎么解决？各种词向量的特点是什么？4、word2vec和NNLM对比有什么区别？（word2vec vs NNLM）5、wor...

2019-03-13 09:58:17 8181 7

原创斯坦福大学stanford

https://www.stanford.edu/斯坦福大学（Stanford University），全名小利兰·斯坦福大学（Leland Stanford Junior University），简称“斯坦福（Stanford）”，位于美国加州旧金山湾区南部的帕罗奥多市（Palo Alto）境内[1]，临近世界著名高科技园区硅谷，是世界著名的私立研究型大学[1]。斯坦福大学占地约...

2019-03-13 09:45:52 878

转载 Locality-sensitive hashing

Locality-sensitive hashing(LSH)reduces the dimensionalityof high-dimensional data. LSHhashesinput items so that similar items map to the same “buckets” with high probability (the number of bucket...

2019-03-12 11:12:28 518

原创 Santander Customer Transaction Prediction(2)

https://www.kaggle.com/c/santander-customer-transaction-prediction/leaderboardimport pandas as pdimport matplotlib.pyplot as plt# 初始化sparkdef spark_init(master = "yarn",appName="test"): fr...

2019-03-10 22:23:09 2866 4

转载数据科学&高级分析 (Data science & advanced analytics)

11:15–11:55 Friday, 2017-07-14使用R和Apache Spark处理大规模数据 (Scaling R faster and larger using Apache Spark)地点：多功能厅5B＋C（Function Room 5B+C)观众水平 (Level): 中级 (Intermediate)Xiaoyong Zhu(Microsoft)平均得...

2019-03-10 21:39:27 1077

转载从LR到DNN点击率预估

描述 (Description)对于广告点击率预估的是一个热点问题,很多从事计算广告的公司都有自己的点击率预估系统,其中知识点涉及从相对简单的logistic regression到最近google提出的Wide & Deep Learning.如何稳定可控地改进点击率预估系统,对于数据,架构,算法这三方面在不同的时间点要做什么事情是我这次想要分享的主题.基于过去在meidav(...

2019-03-10 21:36:53 1255

原创 Practical Lessons from Predicting Clicks on Ads at Facebook

Xinran He, Junfeng Pan, Ou Jin, Tianbing Xu, Bo Liu ⇤ , Tao Xu ⇤ , Yanxin Shi ⇤ ,Antoine Atallah ⇤ , Ralf Herbrich ⇤ , Stuart Bowers, Joaquin Quiñonero CandelaFacebook1601 Willow Road, Menlo Par...

2019-03-10 19:31:58 1993

原创 GBDT 特征提取（2）

1. GBDT + LR 是什么本质上GBDT+LR是一种具有stacking思想的二分类器模型，所以可以用来解决二分类问题。这个方法出自于Facebook 2014年的论文Practical Lessons from Predicting Clicks on Ads at Facebook。2. GBDT + LR 用在哪GBDT+LR 使用最广泛的场景是CTR点击率预估，即预测...

2019-03-10 19:15:49 3940

转载使用GBDT选取特征

为什麽选取特征有些特征意义不大，删除后不影响效果，甚至可能提升效果。关于GBDT(Gradient Boosting Decision Tree)可以参考：GBDT（MART）概念简介GBDT（MART）迭代决策树入门教程 | 简介机器学习中的算法(1)-决策树模型组合之随机森林与GBDT如何在numpy数组中选取若干列或者行？>>> impo...

2019-03-10 19:10:57 5679

转载 Python 信用卡评分模型自动分箱&逻辑回归&制作评分卡

import numpy as npimport pandas as pdfrom sklearn.cluster import KMeansfrom statsmodels.stats.outliers_influence import variance_inflation_factorimport statsmodels.api as smfrom sklearn.model_se...

2019-03-09 17:39:39 2234

转载 url去重：布隆过滤器-python实现

布隆过滤器是什么？在爬虫爬取网页的时候，我们会做的一件事情是判断这个网页是否之前已经爬取过。这个检验步骤在之前的文章里我是用了一个#集合#来保存已经爬取过的网页，而在计算机当中，使用hash表来保存。Hash表的好处就是能够快速定位，而它的缺点也众所皆知，就是存储空间的浪费。为什么会浪费存储空间呢？哈希表方法需要把实实在在的具有特定长度的元素的信息指纹存储在内存或硬盘中的哈希表中（比如每...

2019-03-08 10:19:40 1495

翻译 2018年，20大Python数据科学库都做了哪些更新

作者：呆鸟 Python爱好者社区专栏作者，未经容许，禁止转载简书专栏：https://www.jianshu.com/u/be48b04ecc3e坚持学习Python和English两门语言，致力于让读译文就像读中文的呆鸟标签:Bokeh,Data Science,Keras,Matplotlib,NLTK,numpy,Pandas,Plotly,Python,PyT...

2019-03-07 22:41:40 263

原创 Python高性能计算库—Numba

Python高性能计算库—Numba摘要：在计算能力为王的时代，具有高性能计算的库正在被大家应用于深度学习。例如：Numpy，本文介绍了一个新的Python库——Numba，在计算性能方面，它比Numpy表现的更好。最近我在观看一些SciPy2017会议的视频，偶然发现关于Numba的来历--讲述了那些C++ 横行者因为对Gil Forsyth和Lorena Barba失去信心而编写的一...

2019-03-07 11:19:56 914

转载推荐术语：CPM、CPC、CPA、CPI、CTR、CPV、CVR

CPC (Cost Per Click): 按点击计费CPA(Cost Per Action): 按成果数计费CPM (Cost Per Mille): 按千次展现计费CVR (Click Value Rate): 转化率，衡量CPA广告效果的指标CTR (Click Through Rate): 点击率PV (Page ...

2019-03-07 09:42:05 18298

转载机器学习在微博信息流推荐中的应用实践

由于个性化推荐是给用户推荐其感兴趣的内容，所以对于微博的内容理解和用户画像部分就显得格外重要。内容理解即通过文本内容理解和视觉理解技术，对微博内容进行细粒度表征，即形成每篇微博内容的表征向量。内容理解与用户画像由于个性化推荐是给用户推荐其感兴趣的内容，所以对于微博的内容理解...

2019-03-06 22:47:56 306

翻译（MLR）Learning Piece-wise Linear Models from Large Scale Data for Ad Click Prediction

Learning Piece-wise Linear Models from Large Scale Data for Ad Click PredictionKun Gai1, Xiaoqiang Zhu1, Han Li1, Kai Liu2†, Zhe Wang3†Alibaba Inc.jingshi.gk@taobao.com, {xiaoqiang.zxq, lihan.lh}...

2019-03-05 15:37:03 1989

转载先知平台算法原理简介

先知机器学习平台算法原理1. 统计学角度看待机器学习问题如何从数据中“学习”到尽可能正确的知识（模型），并将其用于新数据的预测是传统机器学习需要解决的核心问题。从统计的角度看，这个问题可以表述为，依据已有的样本数据，寻找模型参数（知识）的合理估计，使得这个估计在总体样本数据上期望损失最小。对于传统的有监督的机器学习（supervised learning）形式化的表示就是：给定样本总体D...

2019-03-05 15:33:35 3713

原创 pyspark 手写Apriori算法

其中白色部分是新增的Python进程，在Driver端，通过Py4j实现在Python中调用Java的方法，即将用户写的PySpark程序”映射”到JVM中，例如，用户在PySpark中实例化一个Python的SparkContext对象，最终会在JVM中实例化Scala的SparkContext对象；在Executor端，则不需要借助Py4j，因为Executor端运行的Task逻辑...

2019-03-05 15:27:52 1428

翻译 Introduction to Conditional Random Fields

Introduction to Conditional Random FieldsImagine you have a sequence of snapshots from a day in Justin Bieber’s life, and you want to label each image with the activity it represents (eating, sleepi...

2019-03-05 10:34:52 375

转载阿里妈妈首次公开自研CTR预估核心算法MLR

阿里妈妈算法团队阿里技术2017-06-15一、技术背景CTR（Click-Through-Rate）即点击通过率，是互联网广告常用的术语，指网络广告（图片广告/文字广告/关键词广告/排名广告/视频广告等）的点击到达率，即该广告的实际点击次数除以广告的展现量。点击率预估（Click-Through Rate Prediction）是互联网主流应用(广告、推荐、搜索等)的核心算法问题，...

2019-03-04 14:17:19 367

原创 sklearn机器学习之特征工程

特征工程是什么数据探索性分析Exploratory Data AnalysisEDA数据预处理无量纲化数据规范化标准化 0均值标准化Z-score standardization区间缩放法线性函数归一化Min-Max scaling标准化与归一化的区别标准化规范化与归一化的区别对定量特征二值化对定性特征哑编码缺失值计算数据变换回顾特征选择Fi...

2019-03-03 19:15:10 3172 2

转载数据离散程度的衡量

我们通常使用均值、中位数、众数等统计量来反映数据的集中趋势，但这些统计量无法完全反应数据的特征，即使均值相等的数据集也存在无限种分布的可能，所以需要结合数据的离散程度。常用的可以反映数据离散程度的统计量如下：极差（Range）　　极差也叫全距，指数据集中的最大值与最小值之差：　　极差计算比较简单，能从一定程度上反映数据集的离散情况，但因为最大值和最小值都取的是极端，而没有考...

2019-03-01 23:26:42 3916

转载 Spark的StandAlone模式原理和安装、Spark-on-YARN的理解

Spark是一个内存迭代式运算框架，通过RDD来描述数据从哪里来，数据用那个算子计算，计算完的数据保存到哪里，RDD之间的依赖关系。他只是一个运算框架，和storm一样只做运算，不做存储。Spark程序可以运行在Yarn、standalone、mesos等平台上，standalone是Spark提供的一个分布式运行平台，分为master和worker两个角色。Standalone模式安装：...

2019-03-01 22:45:34 530

gephi 教程all-中文版

gephi 教程all-中文版，Gephi是一款开源免费跨平台基于JVM的复杂网络分析软件,，其主要用于各种网络和复杂系统，动态和分层图的交互可视化与探测开源工具。Gephi是一个广受赞誉的开源可视化及大型图表操作平台。Gephi可以在Windows、Mac OS X和Linux上运行,支持法语、西班牙语、日语、俄语、巴西葡萄牙语、汉语和捷克语。

2018-04-19

基于神经网络的文本向量表示与建模研究

深度学习

2017-11-25

最大熵模型与EM算法

2017-07-17

Java多线程编程核心技术_完整版

Java多线程编程核心技术_完整版，

2017-06-04

2017支付宝

实现支付宝APP支付、订单查询、支付结果异步通知、APP支付申请参数说明

2017-05-11

Tomcat 热部署

tomcat热部署

2016-12-06

阿里巴巴json解析包

最快的json解析包

2016-12-04

nodejs基础入门

2016-07-16

C#.net泡泡堂

一款模仿泡泡堂的C#项目，源码当中注释比较详细。

2016-06-08

基于J2EE的公交查询系统的设计与实现

公交查询系统是城市道路交通的重要组成部分,是城市发展的必然产物,是联系国民生活、社会生产和流通领域的关键环节。我国城市公交查询系统的发展处于一个较落后的水平,人们可以获得信息的方式很少,为了解决这种问题,设计出基于J2EE的公交查询系统。

2016-05-31

J2EE选课系统

选课系统

2016-05-03

Android实现悬浮式顶部和底部标题栏效果仿百度贴吧

Android实现了仿百度贴吧的悬浮式顶部和底部标题栏的效果，项目中含：源码+效果图+项目结构图教程地址：http://blog.csdn.net/yangyu20121224/article/details/9122517

2015-12-20

android_AIDL

AIDL,android进程间通信：使用AIDL,http://blog.csdn.net/saintswordsman/article/details/5130947

2015-10-15

Android基于蓝牙的计步器

这是一个经过验收的完整的项目，和目前IOS与Android市场上用的计步器基本一样，有完整的代码，大部分有注释，界面美观，功能齐全（查看历史，分析一周数据，记步页面，PK页面，个人设置页面），绝对物超所值，100%不坑爹

2015-05-14

Android中文翻译组 Android中文API合集

2015-05-01

Visual C++图书管理系统

Visual C++图书管理系统，很好的c++系统

2015-03-17

71道经典Android面试题和答案,重要知识点

Android面试题，71道经典Android面试题和答案,重要知识点

2015-01-11

计算机组成原理ppt（张功萱）

计算机组成原理ppt（张功萱）全部ppt

2014-09-27

大唐软件任务管理系统

大唐软件任务管理系统，附带项目讲解PPT模版数据库设计文档项目使用说明书源码使用技术Struts2结合Hibernate

2014-07-25

andricoFacebook客户端

andricoFacebook客户端，很好的一款学习源码，长达可不能但是卡萨帝斯克。

2014-05-24

Android日记本（包含日历控件）

Android日记本（包含日历控件），还不错

2014-05-22

AFinal框架\AFinal断点续传源码

AFinal框架\AFinal断点续传源码，挣的是好的Afinal框架应用元那么

2014-05-22

自定自定义音乐播放器项

要求：基本功能实现（40分）实现音乐文件的获取——获取方式自定实现音乐的播放、暂停、停止、上一首、下一首功能实现音乐播放进度的控制实现音乐播放模式的设定实现摇一摇切换音乐的功能——音乐切换顺序自定实现音乐文件的分享——至少要能使用短信和蓝牙两种方式分享，短信分享时必须提供用户输入手机号或者从通信录中直接获取两种方式，不得直接通过intent对象调用手机的相应功能实现提高功能（20分）实现音乐库的生成和管理——全盘扫描音乐文件、将扫描到的音乐文件保存到媒体库中播放列表的管理——至少应包括生成播放列表、向播放列表中添加音乐文件、删除播放列表、按播放列表播放等功能其他自定义功能——根据自己的喜好自行设计新功能书写程序制作思路分析文档（40分）程序制作思路分析文档必须包含如下内容：列出本项目需要开发的功能对每个功能进行功能分析，需要分析说明的内容包括：要实现该功能需要解决哪些问题？分别对每个问题进行分析，该问题是否能用某个知识或技能解决：如能，写出该知识点或技能点的使用；如不能，该问题又该分为哪几个子问题来解决。需要提交的文件本次项目的安卓工程本项目生成的apk文件描述程序制作思路的word文档其他要求本项目的安卓工程包名必须以“com.你的姓全拼名声母.”开始，例如：冉超群的安卓工程中的包名都以“com.ranchq.”开头注释的书写：每个类必须写明其实现的功能，每个方法必须写明其作用及方法中参数的意义。本次期末项目在第六周周三进行效果展示，项目工程、apk文件和描述程序制作思路的word文档在周四下课时统一上交作为期末成绩的最终考核依据。

2014-04-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人