机器学习
文章平均质量分 67
vs412237401
这个作者很懒,什么都没留下…
展开
-
用docsim/doc2vec/LSH比较两个文档之间的相似度
在我们做文本处理的时候,经常需要对两篇文档是否相似做处理或者根据输入的文档,找出最相似的文档。幸好gensim提供了这样的工具,具体的处理思路如下,对于中文文本的比较,先需要做分词处理,根据分词的结果生成一个字典,然后再根据字典把原文档转化成向量。然后去训练相似度。把对应的文档构建一个索引,原文描述如下:The main class is Similarity, which bui原创 2016-08-18 10:27:40 · 21779 阅读 · 18 评论 -
使用keras对mnist数据集做分类
只贴代码:原始数据集下载:http://yann.lecun.com/exdb/mnist/代码说明:http://keras.io/getting-started/sequential-model-guide/#examples"""@version:@author: vinsin@license: Apache Licence@software: PyCharm原创 2016-07-21 15:42:17 · 9381 阅读 · 4 评论 -
文本分析之TFIDF/LDA/Word2vec实践
写在最前面的话,最好的学习材料是官方文档及API:http://radimrehurek.com/gensim/tutorial.htmlhttp://radimrehurek.com/gensim/apiref.html 以下内空有部分是出自官方文档。 使用TFIDF/LDA来对中文文档做主题分类,TFIDF scikit-learn也有实现,中文的先做分词处理,然后生成原创 2016-02-03 10:35:44 · 38856 阅读 · 14 评论 -
推荐系统个人理解(实践部分)
前一篇文章简单介绍了推荐系统,并列出了常用的推荐算法,这篇主要就如何实现推荐做说明。本来最开始打算用movielens的电影数据来做推荐,数据集下载地址如下,http://grouplens.org/datasets/movielens/,我下的是1m左右的数据,用户6040个,电影3952个,我在构建用户相似度矩阵的时候居然从下午4:00一直跑到晚上2:30,用户相似度需要构建一个6040*604原创 2016-01-27 14:31:16 · 1733 阅读 · 0 评论 -
聚类k-means/k-means++/fcm学习笔记
聚类主要是一种无监督学习,用来发现未标注数据的隐藏结构,主要是用来给数据分组,聚类算法一般有硬聚类(k-means,k-means++)和软聚类FCM(fuzzy c-means)。聚类目前广泛应用于文档,音乐,电影的分组,以及基于用户的行为对用户分组等。聚类一般有如下分类,基于层级(hierarchical)的聚类,基于密度(density-based)的聚类还有基于原型(prototype-b原创 2016-02-24 10:32:37 · 4814 阅读 · 0 评论 -
LDA论文学习笔记
以下内容节选自David M. Blei的论文《Latent Dirichlet Allocation》主要是选自LDA的处理流程部分,可能理解上有很大的偏差,或者表达上有问题,如有误导还想大家多多指教。 LDA原始论文链接为:http://www.jmlr.org/papers/volume3/blei03a/blei03a.pdfLDA中关于词,文档,语料的定义:1. 词原创 2016-02-04 11:18:56 · 3538 阅读 · 1 评论 -
从泰坦尼克来做数据分类预测
泰坦尼克空难简介:1912年4月15日,载着1316号乘客和891名船员的豪华巨轮“泰坦尼克号”与冰山相撞而沉没,这场海难被认为是20世纪人间十大灾难之一。1985年,“泰坦尼克号”的沉船遗骸在北大西洋两英里半的海底被发现。美国探险家洛维特(比尔·帕克斯顿 饰演)亲自潜入海底,在船舱的墙壁上看见了一幅画,洛维持的发现立刻引起了一位老妇人(格劳瑞亚·斯图尔特 饰演)的注意。已经是101岁高龄的露丝称原创 2016-03-03 15:04:56 · 3765 阅读 · 0 评论 -
文本分析之中文分词
在处理文本分析时,我们经常需要面临的一个问题就是分词,特别是在中国当前的IT环境下,大部分文本数据都是中文,中文和英文有一些不一样,中文字与字之间没有明显的分隔符,而英文单词与单词之间有自然的空格符来分隔。中文分词属于自然语言处理的范畴,中文分词广泛应用于搜索引擎,在线机器翻译等领域。分词常用的方法主要有以下三类,一个是基于字典匹配的分词方法,一个是基于语义分析的分词算法,还有一个是基于概率统计模型原创 2016-02-02 13:21:02 · 8602 阅读 · 1 评论 -
文本分析个人理解
文本分析是在机器学习数据挖掘中经常要用到的一种方法,主要是指对文本处理,并对文本建模取得有用的信息。文本分析主要用在如垃圾邮件分类,搜索词聚类等等。文本分析中主要面临的一个问题就是对文本做向量转换以后,数据的维度会很高,也就是所谓的维度灾难。 文本分析的主要步骤为: 文本分析一般主要由三步组成,解析数据,搜索检索,文本挖掘。解析数据主要是为了将非格式化的数据处理成格式化的数据以方便以后的分析。非原创 2016-01-28 17:10:41 · 13255 阅读 · 1 评论 -
文本分析之数据收集
做文本分析时,在很多情况下,需要我们自己去爬外部网站的数据,由于不同的网站有不同的网页结构,所以处理起来就需要根据网页不同去做解析。解析网页使用的语言为python,因为他们提供了很多的类似插件的工具包,最终比较一下,使用的是requests包和soupy包,网页爬的数据做为以后文本分析处理的基础,关于本篇文章使用的工具包的相关参考文档如下:http://www.python-reques原创 2016-02-01 12:00:05 · 3245 阅读 · 2 评论 -
文本分析实例---QQ聊天记录分析
对QQ聊天记录进行分析,因为每天产生的聊天记录比较多,所以选取的是从2月份整月的聊天记录数据,分析要产生的结果有三个,聊天记录中发消息的人前top15,统计24小时时间段那个时间段发贴人最多,还有对消息中的热词进行抽取。 对QQ用户发贴次数进行统计,需要注意QQ导出的聊天记录格式,【年月日时分秒 QQ账号相关信息】,需要对聊天记录做解析。另外对聊天内容也要做解析。 具体思路不做详细原创 2016-03-01 11:10:44 · 13702 阅读 · 5 评论 -
关于我和机器学习
首次接触到机器学习是和一个朋友有关,这个是我在上海认识的一个群友,线下我们也见过面,四川大学的博士,现在在USA求学,当时他推荐了吴恩达的机器学习公开课。因为时差的关系,他偶尔出来冒个泡。另外一个对我机器学习有很大帮助的一个人也是一个群友,搜狗商业搜索部的广告专家,正是因为他才让我真正的去了解和学习机器学习,他也推荐了很多材料及书籍、视频。我和此君还有一个共同的话题就是跑步,此君跑步很历害,跑过超原创 2016-01-25 13:02:53 · 1239 阅读 · 2 评论 -
推荐系统个人理解(理论部分)
推荐系统是随着互联网的发展而形成的一个系统,他主要是为了解决信息过载的一些问题。随着互联网的深入发展,越来越多的信息在互联网上传播,产生了严重的信息过载,如果不采取一定的手段用户很难从如此多的信息中找到对自己有价值的信息。推荐系统的任务就是联系用户和信息,一方面帮助用户发现对自己有价值的信息,另外一方面让信息能够展现在对它感兴趣的用户面前,推荐系统不需要用户提供明确的需求,而是通过分析用户的历史行为原创 2016-01-26 09:28:44 · 1924 阅读 · 2 评论 -
使用aiml/lsh实现在线聊天机器人
你需要了解的相关知识,eliza(nltk实现的一个简单的聊天应用),aiml(人工智能标记语言),短文本相似性匹配,大部分在线的机器人基本都是通过question-anwser匹配的方式来实现人与机器之间的交互,目前来说效果并不好。本文实现的在线聊天机器人程序采用以下几种方式,aiml+短文件匹配+第三方调用。实现思路:先定义aiml匹配的规则,准备qa样本数据通过lsh来生成模型,对于用户原创 2016-09-01 10:52:09 · 3412 阅读 · 5 评论