2019年10月_sesiria

原创基于K-Means算法的应用 User Clustering

User Clustering计算出segment对于Recence，先对数据进行排序，然后映射到4个bucket中，数值越大价值越大接着计算对于R的 segment接着对M排序并映射到bucket中，然后计算对应M的Segment接着计算M的segment最后把segment的值相加得到Score最后根据的Score设定规...

2019-10-27 10:23:12 436

原创基于论文[From Word Embedding to Document Distance]的实验

代码参考：https://github.com/mkusner/wmd一，准备环境安装好anaconda笔者这里用的是python3 64bit的版本需要用到这个库，gensimconda install -c conda-forge gensim从参考代码的仓库上下载WMD代码：git clone git@github.com:mkusner/wmd.git...

2019-10-26 17:46:44 283

原创 Algorithm: K-Means

K-MeansThe K-Means is anunsupervised learning algorithm which hasthe input sample data without label.Sometimes we use the CRM system to manage the relationship between the customer. The concept...

2019-10-25 09:33:18 347

原创在Markdown中的Latex 基本使用

研究机器学习的时候，在markdown中最常的应用是写数学公式，和证明。一，数学证明块：$$\begin{array} {l}{\text { Recall the exponential family form of the Bernoulli distribution }(6.113 \mathrm{d}),} \\ {\qquad p(x | \mu)=\e...

2019-10-22 15:35:56 1262

转载 [转] Python使用matplotlib,numpy,scipy进行散点的平滑曲线化方法

首先给出一个没有smooth过的曲线import matplotlib.pyplot as pltimport numpy as npT = np.array([6, 7, 8, 9, 10, 11, 12])power = np.array([1.53E+03, 5.92E+02, 2.04E+02, 7.24E+01, 2.72E+01, 1.10E+01, 4.70E+00]...

2019-10-19 20:43:36 1425

原创 C++并发编程之读写锁（C++17）

STL 和 Boost 都提供了 shared_mutex 来解决「读者-写者」问题（必须使用C++17或者后续版本）。shared_mutex 这个名字并不十分贴切，不如 pthread 直呼「读写锁」。所谓「读写锁」，就是同时可以被多个读者拥有，但是只能被一个写者拥有的锁。而所谓「多个读者、单个写者」，并非指程序中只有一个写者（线程），而是说不能有多个写者同时去写。下面看一个计数器的例...

2019-10-19 09:09:38 3055

原创金融风控项目

一、问题定义金融的核心是风险控制。自然而然地，AI的主战场也变成了如何使用AI技术精准的做风险控制。在风控领域，有一个很重要的问题是：如何通过用户的信息来判断用户的逾期与否？我们通过收集用户的基本信息、地域信息、社交信息等来判断一个人的逾期概率。我们的问题是：基于用户相关的信息来预测此用户是否违约。数据如下：https://www.kesci.com/home/competit...

2019-10-18 15:57:34 3859 2

原创 git 基本使用

一，Github简介二，创建SSH （每次提交可以不用输用户名密码）HTTP方式需要每次用户名密码认证在Github中新增SSH打开一个终端并生成一个SSH的Key文件生成好的文件：将公钥添加至Github：配置多用户：三，Git的基本应用1) 使用SSH来获得代码：执行git clone xxx@github...

2019-10-17 22:06:39 221

原创【工具】几个写文章和paper相关的工具

1. Mathpix 能把图片中的公式转成Latex格式，方便后续进行公式编辑现在各种markdown，word，知乎，CSDN都支持Latex公式了。复制公式强烈推荐！https://mathpix.com/2. Latex强大的包https://www.latex-project.org/get/可以进行各种复杂3. 如果觉得Latex太大可以使用在线版：ov...

2019-10-17 11:13:54 385

原创 Algorithm: Boosting model with XGBoost

Difference between bagging and boosting:We call each sub model in ensemble mode as weak learner. In random forest, it is the decision tree.Weak Learner: it can't be used to predict the result in...

2019-10-16 19:43:00 259

原创 Chatbot 聊天机器人相关资料

chatbot guide：https://zhuanlan.zhihu.com/p/552016251.retrieval based chatbot：https://zhuanlan.zhihu.com/p/547955452.generation based chatbot：https://blog.csdn.net/irving_zhang/article/details/790...

2019-10-15 14:29:27 344

原创 C/C++浮点数的存储方式 IEEE-754标准，以及实现一个ftoa函数将浮点数转换为字符串

浮点数的存储格式转载自：http://www.cnblogs.com/dolphin0520/archive/2011/10/02/2198280.html C/C++浮点数在内存中的存储方式任何数据在内存中都是以二进制的形式存储的，例如一个short型数据1156，其二进制表示形式为00000100 10000100。则在Intel CPU架构的系统中...

2019-10-14 11:44:44 3983

原创如何写好一封paper Summary

为什么要写summary?对于AI的学习来说，读论文的能力可以说是必备的技能。在平时工作中也需要花大量的时间来阅读文章。阅读文章的能力不是一两天就可以培养的，需要长期的努力，以及正确的论文阅读方法。基本上通过3-4个月的训练可以养成阅读文章的习惯。在读论文过程中，一个非常好的习惯是把读过的论文写成summary, 把自己的理解记录下来，这也是加深对文章的理解的过程。另外，写summar...

2019-10-13 22:10:54 1264

原创基于集成学习模型的估价预测（量化投资）

股价的预测这个领域属于量化投资，也就是通过数量化的方式和模型去做投资决策。量化投资是一个很庞大的领域，从量化投资开始至今，衍生出了大量的投资理念和策略。纵观国内外量化投资现状，国内其实刚刚起步，还有很长的路要走，这里包括数据的完整性、透明性等。国内目前散户(个人投资者)很多，但比如像美国这些欧美国家，绝大部分是以机构投资者为主的，而且他们很多都在使用量化投资技术。此项目关注的地方：...

2019-10-13 09:28:24 1394

原创 Algorithm: Random Forest, ensemble model

Ensemble ModelFor clasisfication problem the ensemble model is very effective. Such as the situation of the Image recognition via deep learning.(black box)For agrade system, we use the GBDT or X...

2019-10-12 14:58:48 319

原创 Algorithm: Decision Tree, Entropy, Information Gain and Continues features

Deciesion Tree is the foundation of the random forest.A decision tree is a decision support tool that uses a tree-like model of decisions and their possible consequences, including chance event outc...

2019-10-10 16:06:09 441

原创 LRU Cache Implementation

Design and implement a data structure for Least Recently Used (LRU) cache. It should support the following operations: get and put.get(key) - Get the value (will always be positive) of the key if th...

2019-10-09 09:34:24 189

原创搭建情感分析系统，tf-idf，word2vec

情感分析问题给定一个文本并输出它的情感值，情感值无非是正面、负面或者中性。我们希望通过使用一种算法去识别一个文本的情感，这个问题本身属于文本分类问题。如果只是正面或者负面，就是二分类问题；但如果是正面、负面和中性，则是三分类问题。应用场景：1）量化投资，就是通过AI技术去做投资比如股票买卖。在量化投资里，我们一般使用模型对未来的股市做预测，然后再进行买卖的决策。在这个任务上，我们...

2019-10-08 14:30:40 1954

原创生成模型与判别模型

生成模型生成模型：在概率统计理论中，生成模型是指能够随机生成观测数据的模型，尤其是在给定某些隐含参数的条件下。它给观测值和标注数据序列指定一个联合概率分布。在机器学习中，生成模型可以用来直接对数据建模（例如根据某个变量的概率密度函数进行数据采样），也可以用来建立变量间的条件概率分布。条件概率分布可以由生成模型根据贝叶斯定理形成简而言之：模型可以生成数据。基于GAN(Generat...

2019-10-07 16:36:52 259

原创 Naive Bayesian for Text Classification (MLE, Gaussian Naive Bayesian)

The Naive Bayesian is a baseline for text classification problem.A spam email example. We need to count the frequency of words which occurs in the span/normal email.Such as, ad., purchase, link...

2019-10-07 16:18:47 472

原创 Windows 7 64bit + Python 3.7.3 + Anaconda 3 安装Xgboost库

网上搜了一圈，各种安装Xgboost的方法都有，有自己下源码编译用Cmake+Windows SDK编译，或者用mingw-64编译，然后配环境的。甚至笔者自己下载二进制文件安装的都失败了。https://xgboost.readthedocs.io/en/latest/build.html#building-on-windows这文档里介绍的用mingw编译的xgboost，由于wind...

2019-10-06 22:10:49 357

原创 Pandas Numpy reference

for Pandas:https://pandas.pydata.org/pandas-docs/stable/getting_started/10min.htmlNumpy:http://jalammar.github.io/visual-numpy/

2019-10-01 14:09:06 192

原创项目：广告点击预测率评估

背景：一方面有流量的企业希望最大化广告收益；另一方面需要流量的个体希望最小化广告投放成本但同时最大化效果，这就是一个博弈的过程。目前市面上流行的百度信息流、微信朋友圈投广都是基于这类的博弈过程。你可以设想一下：假如有几家公司想在百度投放广告，但是广告位是有限的，那这时候该选择哪一家的广告呢？这里就有一个很关键的概念，叫作竞价！也就是谁出的钱越多，就放谁的，但这里有一个很重要的前...

2019-10-01 11:49:31 2092

sesiria的博客