机器学习
这是机器学习领域的通俗读物
卅千万
怕什么真理无穷,进一寸有一寸的欢喜。
展开
-
NLP文本相似度之LCS
基础LCS(Longest Common Subsequence)通常指的是最长公共子序列,区别最长公共字串(Longest Common Substring)。我们先从子序列的定义理解:一个序列S任意删除若干个字符得到新的序列T,则T叫做S的子序列。子序列和子串的一个很大的不同点是,子序列不要求连接,而子串要求连接。两个序列X和Y的公共子序列中,长度最长的那个,定义为X和Y的最长公共...原创 2019-04-17 12:30:55 · 1443 阅读 · 0 评论 -
NLP 文本相似度(一)
生活中事物之间的比较,通常采用一个量化的衡量标准。衡量是一种比较,比较就需要比较的维度,两份文本之间如何比较相似度?我们先从一份文本说起。文本从结构划分:包含字、词、句、段、篇;从规则划分:包含词法规则、语法规则等;从上下文理解:不同的字、词在不同的语境(上下文)中又含有不同的语义…两份文本之间的比较,似乎很难。IF-IDF 是一种很有效的文本相似度比较算法。...原创 2019-04-16 17:48:18 · 887 阅读 · 0 评论 -
机器学习极简入门教程(三)
这是机器学习入门教程系列的第三部分,点击这里跳转到第一部分,点击这里跳转到第二部分。part6通过前面的学习,我们掌握了用已有数据对目标进行预测的方法。在使用模型的时候,有些人或许会好奇,模型究竟是怎样的?这里我们通过一个独特的视角——部分依赖图(Partial Dependence Plots)来认识模型。定义部分依赖图研究的是一组目标特征和目标函数之间的依赖关系。通俗说:部...翻译 2018-09-11 17:16:18 · 366 阅读 · 0 评论 -
机器学习极简入门教程(二)
这是机器学习入门教程系列的第二部分,点击这里跳转到第一部分。part4让我们回到数据部分。一份数据,理想的状况是能直接拿来用。现实中往往不是这样,需要我们先对原始数据进行处理。这里我们这里讨论了一种情况:对缺失值的处理方式。处理缺失值1.直接删除缺失值cols_with_missing =[col for col in X_train.columns if X_train[...翻译 2018-09-11 17:13:37 · 660 阅读 · 0 评论 -
机器学习极简入门教程(一)
阅读此文,需要有python基础。part1这里不回答机器学习是什么,能做什么,只告诉你如何快速上手。熟悉你手中的数据。常用模块导入命令import pandas as pd文件导入命令FILE_PATH=".CSV后缀文件存放路径"data = pd.read_csv(FILE_PATH)数据探索命令。这里以房价预测数据为例,数据下载点...翻译 2018-09-11 16:54:53 · 5347 阅读 · 4 评论 -
一张图说清楚机器学习
入坑机器学习有一定的门槛,不要怕!让老司机用一张图来告诉你如何进行机器学习。正文实验案例:房价预测 步骤总结如下: - 导入需要的Python依赖库。两个重要的库:Numpy、Pandas。 - 导入数据集(Data sets)。 - 处理缺失数据(Missing data)和分类数据(Categorical data )。 - 将原始数据集分成训练和测试两部分。 - ...翻译 2018-09-11 17:19:51 · 491 阅读 · 0 评论