自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 Disjoint Union Set 并查集

Equations are given in the format A / B = k, where A and B are variables represented as strings, and k is a real number (floating point number). Give...

2019-12-11 14:28:43 46 0

原创 MatchZoo 文本匹配工具包

MatchZoo是封装了一系列文本匹配的框架包含以下算法: 官网地址:https://github.com/kouunn/MatchZoo Model Detail: 1. DRMM this model is an implementation ofA Deep Relevance Ma...

2019-11-24 09:39:42 204 0

原创 基于K-Means算法的应用 User Clustering

User Clustering 计算出segment 对于Recence,先对数据进行排序,然后映射到4个bucket中,数值越大价值越大 接着计算对于R的 segment 接着对M排序并映射到bucket中,然后计算对应M的Segment 接着计算M的s...

2019-10-27 10:23:12 78 0

原创 基于论文[From Word Embedding to Document Distance]的实验

代码参考: https://github.com/mkusner/wmd 一,准备环境 安装好anaconda笔者这里用的是python3 64bit的版本 需要用到这个库,gensim conda install -c conda-forge gensim 从参考代码的仓库上下...

2019-10-26 17:46:44 52 0

原创 Algorithm: K-Means

K-Means The K-Means is anunsupervised learning algorithm which hasthe input sample data without label. Sometimes we use the CRM system to manage th...

2019-10-25 09:33:18 92 0

原创 在Markdown中的Latex 基本使用

研究机器学习的时候,在markdown中最常的应用是写数学公式,和证明。 一, 数学证明块: $$ \begin{array} {l}{\text { Recall the exponential family form of the Bernoulli distribution...

2019-10-22 15:35:56 164 0

转载 [转] Python使用matplotlib,numpy,scipy进行散点的平滑曲线化方法

首先给出一个没有smooth过的曲线 import matplotlib.pyplot as plt import numpy as np T = np.array([6, 7, 8, 9, 10, 11, 12]) power = np.array([1.53E+03, 5.92E+02,...

2019-10-19 20:43:36 114 0

原创 C++并发编程之读写锁(C++17)

STL 和 Boost 都提供了 shared_mutex 来解决「读者-写者」问题(必须使用C++17或者后续版本)。shared_mutex 这个名字并不十分贴切,不如 pthread 直呼「读写锁」。 所谓「读写锁」,就是同时可以被多个读者拥有,但是只能被一个写者拥有的锁。而所谓「多个读者...

2019-10-19 09:09:38 30 0

原创 金融风控项目

一、问题定义 金融的核心是风险控制。自然而然地,AI的主战场也变成了如何使用AI技术精准的做风险控制。 在风控领域,有一个很重要的问题是:如何通过用户的信息来判断用户的逾期与否? 我们通过收集用户的基本信息、地域信息、社交信息等来判断一个人的逾期概率。 我们的问题是:基于用户相关的信息来预...

2019-10-18 15:57:34 911 0

原创 git 基本使用

一,Github简介 二,创建SSH (每次提交可以不用输用户名密码) HTTP方式需要每次用户名密码认证 在Github中 新增SSH 打开一个终端并生成一个SSH的Key文件 生成好的文件: 将公钥添加至Github: 配置多用户: 三,Git的...

2019-10-17 22:06:39 44 0

原创 【工具】几个写文章和paper相关的工具

1. Mathpix 能把图片中的公式转成Latex格式,方便后续进行公式编辑 现在各种markdown,word,知乎,CSDN都支持Latex公式了。复制公式强烈推荐! https://mathpix.com/ 2. Latex强大的包 https://www.latex-projec...

2019-10-17 11:13:54 76 0

原创 Algorithm: Boosting model with XGBoost

Difference between bagging and boosting: We call each sub model in ensemble mode as weak learner. In random forest, it is the decision tree. Weak...

2019-10-16 19:43:00 40 0

原创 Chatbot 聊天机器人相关资料

chatbot guide: https://zhuanlan.zhihu.com/p/55201625 1.retrieval based chatbot: https://zhuanlan.zhihu.com/p/54795545 2.generation based chatbot: htt...

2019-10-15 14:29:27 88 0

原创 C/C++浮点数的存储方式,以及实现一个ftoa函数将浮点数转换为字符串

浮点数的存储格式 转载自 :http://www.cnblogs.com/dolphin0520/archive/2011/10/02/2198280.html C/C++浮点数在内存中的存储方式 任何数据在内存中都是以二进制的形式存储的,例如一个short型数据1156,其二进...

2019-10-14 11:44:44 2534 0

原创 如何写好一封paper Summary

为什么要写summary? 对于AI的学习来说,读论文的能力可以说是必备的技能。在平时工作中也需要花大量的时间来阅读文章。 阅读文章的能力不是一两天就可以培养的,需要长期的努力,以及正确的论文阅读方法。 基本上通过3-4个月的训练可以养成阅读文章的习惯。 在读论文过程中,一个非常好的习惯是把读过...

2019-10-13 22:10:54 218 0

原创 基于集成学习模型的估价预测(量化投资)

股价的预测 这个领域属于量化投资,也就是通过数量化的方式和模型去做投资决策。量化投资是一个很庞大的领域,从量化投资开始至今,衍生出了大量的投资理念和策略。 纵观国内外量化投资现状,国内其实刚刚起步,还有很长的路要走,这里包括数据的完整性、透明性等。 国内目前散户(个人投资者)很多,但比如像美国...

2019-10-13 09:28:24 288 0

原创 Algorithm: Random Forest, ensemble model

Ensemble Model For clasisfication problem the ensemble model is very effective. Such as the situation of the Image recognition via deep learning.(bl...

2019-10-12 14:58:48 38 0

原创 Algorithm: Decision Tree, Entropy, Information Gain and Continues features

Deciesion Tree is the foundation of the random forest. A decision tree is a decision support tool that uses a tree-like model of decisions and their...

2019-10-10 16:06:09 83 0

原创 LRU Cache Implementation

Design and implement a data structure for Least Recently Used (LRU) cache. It should support the following operations: get and put. get(key) - Get t...

2019-10-09 09:34:24 37 0

原创 搭建情感分析系统,tf-idf,word2vec

情感分析问题 给定一个文本并输出它的情感值,情感值无非是正面、负面或者中性。 我们希望通过使用一种算法去识别一个文本的情感,这个问题本身属于文本分类问题。 如果只是正面或者负面,就是二分类问题;但如果是正面、负面和中性,则是三分类问题。 应用场景: 1)量化投资,就是通过AI技术去做投资比...

2019-10-08 14:30:40 329 0

原创 生成模型与判别模型

生成模型 生成模型:在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。它给观测值和标注数据序列指定一个联合概率分布。在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。条件概率...

2019-10-07 16:36:52 61 0

原创 Naive Bayesian for Text Classification (MLE, Gaussian Naive Bayesian)

The Naive Bayesian is a baseline for text classification problem. A spam email example. We need to count the frequency of words which occurs in th...

2019-10-07 16:18:47 102 0

原创 Windows 7 64bit + Python 3.7.3 + Anaconda 3 安装Xgboost库

网上搜了一圈,各种安装Xgboost的方法都有,有自己下源码编译用Cmake+Windows SDK编译,或者用mingw-64编译,然后配环境的。甚至笔者自己下载二进制文件安装的都失败了。 https://xgboost.readthedocs.io/en/latest/build.html#...

2019-10-06 22:10:49 104 0

原创 Pandas Numpy reference

for Pandas: https://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html Numpy: http://jalammar.github.io/visual-numpy/

2019-10-01 14:09:06 46 0

原创 项目:广告点击预测率评估

背景:一方面有流量的企业希望最大化广告收益;另一方面需要流量的个体希望最小化广告投放成本但同时最大化效果,这就是一个博弈的过程。 目前市面上流行的百度信息流、微信朋友圈投广都是基于这类的博弈过程。你可以设想一下: 假如有几家公司想在百度投放广告,但是广告位是有限的,那这时候该选择哪一家的广告呢?...

2019-10-01 11:49:31 532 0

转载 转: 局部敏感哈希(Locality sensitive hash)

原理解释: https://blog.csdn.net/chichoxian/article/details/80290782 代码实现 https://blog.csdn.net/chichoxian/article/details/80408094

2019-09-30 16:47:40 19 0

原创 Overfitting and Regulization in Machine Learning

Logistic Regression by Sklearn sklearn.linear_model.LogisticRegression penalty: l1 ,l2 regulization, elasticent(combine l1, l2) or non(not any re...

2019-09-30 14:45:49 72 0

原创 Algorithm: Logistic Regression and Gradient Descent

The most classic model in machine learning : Logistic Regression. Some problems for two class classify Logistic Regression is a base line for c...

2019-09-29 15:57:35 135 0

原创 Algorithm: Linear Regression

The Linaer Regression with the properties: the decision boundary is linear it is a regression moedl to predict the value respect to the input data ...

2019-09-29 09:33:11 55 0

原创 Complexity Analysis and K-D Tree datastructure

Complexity for KNN algorithm and the Optimization for KNN search. Time complexity Space complexity Time/space complexity for recurssive algorithm....

2019-09-28 11:22:41 46 0

原创 Algorithm: KNN for Regression Problem

The KNN algorithm can not only used in the classify problem, it also can be used for the value prediction as regression problem. Predict for the s...

2019-09-27 16:56:09 48 0

原创 Image Recognition by KNN Algorithm

Dataset: http://www.cs.toronto.edu/~kriz/cifar.html The CIFAR-10 dataset consists of 60000 32x32 colour images in 10 classes, with 6000 images per ...

2019-09-27 15:23:47 34 0

原创 Algorithm: Principle Component Analysis for High Dimension Reduction Data

The data preprocessing as standarlization or feature Scaling: https://en.wikipedia.org/wiki/Feature_scaling Before we implement PCA, we will need t...

2019-09-24 12:41:05 42 0

原创 Algorithm: k-nearest neighbors and decison boundary(Cross Validation)

KNN Algorithm implementation reference:https://en.wikipedia.org/wiki/K-nearest_neighbors_algorithm from matplotlib.colors import ListedColormap fr...

2019-09-18 14:52:32 105 0

原创 Algorithm: Median of Two Sorted Arrays(Binary Search)

Problem come from : https://leetcode-cn.com/problems/median-of-two-sorted-arrays/ Solution references: https://www.geeksforgeeks.org/median-two-so...

2019-09-17 17:21:13 20 0

原创 Linear Algebra : Linear Mapping Concept

Reference: mathematics for machine learning Homomorphism: Injective, Surjective, Bijective. Concept for intuition: For the Identity mappi...

2019-09-15 22:06:02 88 0

原创 摆脱困境,不要陷入“隐含自我假设”

最近在读采铜的《精进》对其中的一个观点深有感触再次摘抄下来作为参考。 大致内容如下: 人生由于经历,习惯和思维惯性等原因,会在我们思考的时候自动植入“隐含假设”,从而限制了思考的角度和范围。 粗看下,这些隐含假设似乎具有一定合理性, 然而仔细分析以后会发现他们不过是不同形式的“偏见”...

2019-09-15 08:47:19 78 0

原创 Algorithm : Dijkstra's algorithm and Bellmon-Ford Paths algorithm

The Dijkstra's Algorithm for network Graph Problem: There are N network nodes, labelled 1 to N. Given times, a list of travel times as direct...

2019-09-14 14:24:52 52 0

原创 scipy curve_fit 使用例子

一个使用curve_fit来模拟曲线的例子 # From https://docs.scipy.org/ import numpy as np import matplotlib.pyplot as plt from scipy.optimize import curve_fit # Def...

2019-09-13 12:54:11 482 0

原创 Algorithms: Kruskal's algorithm and Prim's algorithm for Minimum-spanning-tree

Reference: introduction to algorithm Kruscal Algorithm O(ElgV) by Binary Heaps Prim's algorithm O(E + VlgV) by Fibonacci heaps A problem os a...

2019-09-12 17:40:19 113 0

提示
确定要删除当前文章?
取消 删除