机器学习
贫僧洗头爱飘柔
这个作者很懒,什么都没留下…
展开
-
NLP文本相似度
因为CSDN总会把后边一截给自动删掉,所以移动到简书地址(一)余弦相似度、向量空间模型1、相似度• 相似度度量:计算个体间相似程度• 相似度值越小,距离越大,相似度值越大,距离越小• 最常用——余弦相似度 – 一个向量空间中两个向量夹角的余弦值作为衡量两个个体之间差异的大小 – 余弦值接近1,夹角趋于0,表明两个向量越相似2、例子3、处理流程• 得到了文本相似度计算的处理流程是: ...原创 2018-03-31 11:52:29 · 3448 阅读 · 0 评论 -
中文分词--隐马模型HMM
CSDN只能显示一部分,所以文章移动到简书:点击打开链接一 马尔科夫模型• 每个状态只依赖之前有限个状态 – N阶马尔科夫:依赖之前n个状态 – 1阶马尔科夫(即《中文分词基础》中的二元模型):仅仅依赖前一个状态 • p(w1,w2,w3,……,wn) = p(w1)p(w2|w1)p(w3|w1,w2)……p(wn|w1,w2,……,wn-1) • =p(...原创 2018-05-16 11:06:18 · 461 阅读 · 0 评论 -
推荐算法(CF)--协同过滤
系统框架• 优点 – 充分利用群体智慧 – 推荐精度高于CB – 利于挖掘隐含的相关性• 缺点 – 推荐结果解释性较差 – 对时效性强的Item不适用 – 冷启动问题协同算法• User-Based CF• Item-Based CFUser-BasedCF• 假设 – 用户喜欢那些跟他有相似爱好的用户喜欢的东西 – 具有相似兴趣的用户在未来也具有相...原创 2018-05-18 23:28:39 · 1788 阅读 · 0 评论 -
推荐算法CB
推荐方法• 基于内容Content Based• 基于协同Collaboration Filtering – User Based CF – Item Based CF基于内容(ContentBased)• 引入Item属性的Content Based推荐• 引入User属性的Content Based推荐举个简单的小例子我们已知道• 用户u1喜欢的电影是A,B,C• 用户u2喜欢的电...原创 2018-05-16 19:18:25 · 1157 阅读 · 0 评论 -
分类算法---SVM
所有的算法都建立在模型的基础之上,模型没有建立好,再好的算法哪怕是神经网络也是白搭。感知机神经网络初期最重要的工具,但是感知机有一个严重的缺点,直接导致上个世纪90年代人工智能领域处于停滞的状态,直到支撑向量机诞生。支撑向量机几乎突破了所有的感知机的局限性。而主要的分类方法有3种:基于概率的分类器NB、朴素贝叶斯、SVM模型的表示神经元结构 对神经元抽象结果,树突...原创 2018-05-21 10:14:28 · 1419 阅读 · 0 评论 -
分类算法-朴素贝叶斯NB
分类技术概述• 最常见的机器学习任务• 定义:给定一个对象X,将其划分到预定义好的某一个类别Yi中 – 输入:X – 输出:Y(取值于有限集合{y1,y2,……,yn})• 应用: – 人群,新闻分类,query分类,商品分类,网页分类,垃圾邮件过滤,网页排序不同类型的分类• 类别数量 – 二值分类 • Y的取值只有两种,如:email是否垃圾邮件 – ...原创 2018-05-20 19:11:11 · 445 阅读 · 0 评论 -
中文分词基础
(一)中文分词基础背 景• 一段文字不仅仅在于字面上是什么,还在于怎么切分和理解。• 例如: – 阿三炒饭店: – 阿三 / 炒饭 / 店 阿三 / 炒 / 饭店• 和英文不同,中文词之间没有空格,所以实现中文搜索引擎,比英文多了一项分词的任务。• 如果没有中文分词会出现: – 搜索“达内”,会出现“齐达内”相关的信息• 要解决中文分词准确度的问题,是否可以提供一个免费...原创 2018-03-31 15:03:27 · 1851 阅读 · 0 评论