机器学习
文章平均质量分 69
TheSnowBoy_2
知乎:https://www.zhihu.com/people/wang-kang-84-84/activities
展开
-
主题模型-LDA浅析
上个月参加了在北京举办SIGKDD国际会议,在个性化推荐、社交网络、广告预测等各个领域的workshop上都提到LDA模型,感觉这个模型的应用挺广泛的,会后抽时间了解了一下LDA,做一下总结:(一)LDA作用 传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,如TF-IDF等,这种方法没有考虑到文字背后的语义关联,可能在两个文档共同出现的单词很少甚至没有转载 2017-02-16 16:20:16 · 968 阅读 · 0 评论 -
初识文本处理工具 - TextBlob
综述TextBlob基本介绍基本功能TextBlob安装情感分析什么是文本情感分析使用TextBlob进行情感分析综述 本文主要介绍TextBlob基本使用,侧重点在于情感分析。TextBlob基本介绍 TextBlob是一个用Python编写的开源的文本处理库。它可以用来执行很多自然语言处理的任务,比如,词性标注,名词性成分提取,情感分析,文本翻译,等等。你可以在官方文档阅读Tex原创 2017-07-17 10:08:12 · 10334 阅读 · 7 评论 -
机器学习总结
学习路线图理论数据预处理聚类技术methodsmodels范式特征应用相关文章矩阵理解工具numpyscikit-learnscipymatplotlib学习路线图先来看个学习框架图: 下图说明了如何选择模型? 理论数据预处理统计数据归一化与标准化 标准化,归一化和正则化 聚类【推酷主题】聚类分析技术methods【知乎】分类与回归区别是什么? 回归分析原创 2017-03-04 15:39:37 · 1069 阅读 · 0 评论 -
多元线性回归
目录建立多元线性回归模型准则线性处理非线性到线性转换1多项式模型2指数模型指数模型为3幂函数模型幂函数模型为4成长曲线模型该模型较为常用,原因:很多非线性问题可以转为线性问题。建立多元线性回归模型准则建立多元线性回归模型时,为了保证回归模型具有优良的解释能力和预测效果,应首先注意自变量的选择,其准则(百度百科)是: (1)自变量对因变量必须有显著的影响,并呈密切的线性相关; (2)转载 2017-06-04 10:52:26 · 1831 阅读 · 0 评论 -
聚类
概述基于距离的聚类 kmeansMini Batch K-Meanskmeans变种scikit-learn 中kmeans使用层次聚类基于密度的聚类 DBSCAN聚类结果评价概述从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。 从机器学习角度讲,簇相当于隐藏模式。相关文献: - 【书籍】数据挖掘概念与技术 - Comparing different cluste原创 2017-03-19 20:30:23 · 1705 阅读 · 0 评论 -
Scikit-learn使用总结
原文出处:Scikit-learn使用总结在机器学习和数据挖掘的应用中,scikit-learn是一个功能强大的python包。在数据量不是过大的情况下,可以解决大部分问题。学习使用scikit-learn的过程中,我自己也在补充着机器学习和数据挖掘的知识。这里根据自己学习sklearn的经验,我做一个总结的笔记。另外,我也想把这篇笔记一直更新下去。1 scikit-learn基础介绍转载 2017-04-06 17:22:17 · 2579 阅读 · 0 评论 -
gensim 基本使用
gensim构建LDA模型见文章: 【基础】文本处理总结 pythonNLP-文本相似度计算实验汇总gensim使用细节加载保存的lda模型def load_lda(model_path): lda_model = models.LdaModel.load(model_path) dictionary = corpora.Dictionary.load(model_path +原创 2017-03-17 11:46:56 · 1756 阅读 · 0 评论 -
机器学习中各种距离
1. 欧氏距离2. 曼哈顿距离3. 切比雪夫距离4. 闵可夫斯基距离5. 标准化欧氏距离6. 马氏距离7. 夹角余弦8. 汉明距离9. 杰卡德距离 & 杰卡德相似系数10. 相关系数 & 相关距离11. 信息熵============================================================1. 欧氏距离(E转载 2017-03-22 16:31:38 · 1782 阅读 · 1 评论 -
编辑距离 (edit distance)
原文出处问题:给定两个字符串 A和B,由A转成B所需的最少编辑操作次数。允许的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。例如将A(kitten)转成B(sitting):sitten (k→s)替换sittin (e→i)替换sitting (→g)插入思路:如果我们用 i 表示当前字符串 A 的下标,j 表示当前字符串 B 的转载 2016-10-31 20:53:05 · 928 阅读 · 0 评论 -
机器学习 --算法思想梳理
机器学习&数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理) 前言: 找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其非常感兴趣的话,可以考虑考虑该岗位,毕竟在机器智能没达到人类水平之前,机器学习可以作为一种重要手段,而随着科技的不断发展,相信这方面的人转载 2016-09-22 22:30:27 · 926 阅读 · 0 评论 -
文本处理总结
理论基础LDA原理介绍LDA评价文本预处理总体流程字符串处理相关的工具自然语言工具NLTK工具Gensim相似性代码示例情感分析理论工具 - TextBlob理论基础【算法与数学】阮一峰的网络日志TF-IDF与余弦相似性的应用(一):自动提取关键词TF-IDF与余弦相似性的应用(二):找出相似文章TF-IDF与余弦相似性的应用(三):自动摘要LDA原理介绍【通俗易原创 2017-02-16 20:39:24 · 1543 阅读 · 0 评论