Todd.log - a place to keep my thoughts on programming TF-IDF模型的概率解释

转自:http://www.cnblogs.com/weidagang2046/archive/2012/10/22/tf-idf-from-probabilistic-view.html信息检索概述信息检索是当前应用十分广泛的一种技术,论文检索、搜索引擎都属于信息检索的范畴。通常,人们把信息检索问题抽象为:在文档集合D上,对于由关键词w[1] ... w[k]组成的查询串q,返回一个按查询q和文...
阅读(1167) 评论(0)

新闻个性化推荐系统(python)-(附源码 数据集)

1.背景       最近参加了一个评测,是关于新闻个性化推荐。说白了就是给你一个人的浏览记录,预测他下一次的浏览记录。花了一周时间写了一个集成系统,可以一键推荐新闻,但是准确率比较不理想,所以发到这里希望大家给与一些建议。用到的分词部分的代码借用的jieba分词。数据集和代码在下面会给出。2.数据集一共五个字段,以tab隔开。分别是user编号,news编号,时间编号,新闻标题,对应当前月份的日...
阅读(7964) 评论(24)

写给师弟师妹的一封信-论在校程序员的学习方向

这是我给研究生刚入学的师弟师妹们的一封信,分享给大家吧Hi dear team-members:                  我们的项目已经接近尾声,过一段我会去成都把项目部署完成。感谢大家这段时间的辛苦工作。         发这个邮件的原因,是我不知道大家是否在等待我来部署任务,或是可以自主的学习。         首先我想说的事情是,不要指望做好实验室的项目就会找到好的工作;不要指望在...
阅读(1979) 评论(3)

【问底】严澜:数据挖掘入门——分词

谷歌4亿英镑收购人工智能公司DeepMind,百度目前正推进“百度大脑”项目,腾讯、阿里等各大巨头也在积极布局深度学习。随着社会化数据大量产生,硬件速度上升、成本降低,大数据技术的落地实现,让冷冰冰的数据具有智慧逐渐成为新的热点。要从数据中发现有用的信息就要用到数据挖掘技术,不过买来的数据挖掘书籍一打开全是大量的数学公式,而课本知识早已还给老师了,着实难以下手、非常头大!我们不妨先跳过数学公式,看...
阅读(1665) 评论(1)

[置顶] Android系统截屏的实现(附代码)

1.背景           写博客快两年了,写了100+的文章,最火的文章也是大家最关注的就是如何实现android系统截屏。其实我们google android_screen_shot就会找到很对办法,但那些都是很多年前的了,在android4.*版本后,android对于源码进行了更正,使得以前的方法都不能够使用。       感谢cjd6568358这名网友,我们一起讨论,最终由他实现了a...
阅读(13715) 评论(43)

ospaf-开源项目成熟度分析工具

1.概述软件成熟度评估的最终目标是帮助软件的可持续发展,并为用户应用提供必要的技术参考。开放源代码软件成熟度评估也不例外。我们通过软件的成熟度评估,形成全面的涉及技术、应用、法律等层面的评价报告,帮助那些正在或潜在的开源软件使用者准确的了解软件的技术特性和应用特性,从而为他们选择适合自身需求的开源软件提供参考。同时报告中涉及的大量评测数据,为开源软件的开发者提供帮助,促进他们有效的改善软件在技术方...
阅读(1908) 评论(0)

github关联域名,创建个人网站教程终结篇

1.背景         最近心血来潮,买了一个域名,本来要买fuckgfw的,没想到被抢注了。就拿自己的英文名买了一个,叫做www.garvinli.com。因为知道会有很多朋友不太清楚整个网站搭建的过程,所以在这里贴出之前的一些列教程。有的是两年前写的,比较稚嫩哈!手把手教您制作并发布个人网站或主页(一)(图解教程针对小白)如何在github发布个人网站或开源项目-手把手教您制作并发布个人网站...
阅读(1939) 评论(3)

【Android-tips】 Unable to execute dex: Multiple dex files define 解决方法

唔,之前已经想过今后不动android,没想到还是因为比赛的原因重操旧业。android有很多问题是由于eclipse的不完善造成的,比如今天遇到的这个问题 Unable to execute dex: Multiple dex files define[2011-10-23 16:23:29 - Dex Loader] Unable to execute dex: Multiple dex fi...
阅读(2518) 评论(0)

【机器学习算法-python实现】最大似然估计(Maximum Likelihood)

1.背景           最大似然估计是概率论中常常涉及到的一种统计方法。大体的思想是,在知道概率密度f的前提下,我们进行一次采样,就可以根据f来计算这个采样实现的可能性。当然最大似然可以有很多变化,这里实现一种简单的,实际项目需要的时候可以再更改。       博主是参照wiki来学习的,地址请点击我           这里实现的是特别简单的例子如下(摘自wiki的最大似然)离散分布,离散...
阅读(4312) 评论(1)

【git学习五】git基础之git分支

1.背景              最早用github的时候,我傻傻的问舍友大神,git里面的branch是干什么的,他用了很直白的解释,我至今还记得。“branch就是你可以自己建立一个分支,随便乱搞而不影响整个项目”。git分支应该是git最nb的特色吧,分支的建立和合并都十分方便。             大体的原理是这样的(图借用progit),比如说我们有一个master,还有一个分支是...
阅读(1419) 评论(0)

【git学习四】git基础之git为项目打标签

1.背景          今天学习了下如何给项目打标签,为此项目的修改标记版本号,然后可以直接推送版本号到服务器上,方便了很多,而且便于对项目进行管理。2.打标签                1.查询已有标签,可以使用git tag命令,查询某个特定版本可以git tag -l 'v*'git tag        2.为版本创建标签git tag -a v1.4 -m 'my version...
阅读(1432) 评论(0)

【git学习三】git基础之git管理远程仓库

1.背景              git管理远程仓库,本文以github为例,...
阅读(1186) 评论(1)

【git学习二】git基础之git管理本地项目

1.背景       git基础打算分两部分来说,一部分是对于本地项目的管理,第二部分是对于远程代码仓库的操作。git执行本地项目管理包括对于相关文件的追踪,暂存区的比较分析,提交,撤销等功能。2.本地项目管理       首先mkdir一个文件夹,叫做GitTestFile,然后执行下面代码,创建git的管理配置git init        接着加入如下代码,git add . ,把项目加入跟...
阅读(1379) 评论(0)

【git学习一】git的原理

1.背景       git是比较流行的版本管理软件,博主才疏学浅,到目前为止只用过svn和git。虽然git也用了较长时间了,但是还是没有深入学习过,这周打算阅读Progit,对git有一个深入的总结,另外把git的一些主要命令总结下,方便日后学习工作中使用。2.git简史       读了一遍Progit第一章节,印象比较深刻的有如下几点。        1.git的底层是数据库,这样我们就大...
阅读(1384) 评论(0)

Ospaf项目-commits词频统计模块

1.背景         最近在搞得ospaf项目(可以移步ospaf中期报告来了解),对于commits数据进行特征提取的时候发现,因为开源项目的commits的特点有以下两个主要放面:1.动词往往出现在第一个字,例如add、revert之类的。2.动词相对固定,主要也就是那几种,add、revert、update、merge、remove之类的。         所以要做的工作就比较清晰了。 ...
阅读(1175) 评论(3)

Ohloh调研报告

1.背景      因为最近在搞...
阅读(1336) 评论(0)

csdn开源夏令营-ospaf中期报告

1.背景        随着将中期的代码托管到CSDN的平台上,ospaf(开源项目成熟度分析工具)已经有了小小的雏形,当然还远远不够。      首先还是要感谢这次活动组织方CSDN,感觉挺有Google Summer Code 中国版的味道。还有就是我的夏令营导师David,给了我很多指导和帮助,线下的交流也很让我长见识。     接着来说ospaf这个项目(有兴趣的tx可以去看题案,地址)。...
阅读(1650) 评论(1)

【云端大数据实战】大数据误区、大数据处理步骤分析

1.背景       本文思路的依据来源于本次...
阅读(4903) 评论(8)

【机器学习算法-python实现】PCA 主成分分析、降维

1.背景        PCA...
阅读(6296) 评论(4)

【机器学习算法-python实现】采样算法的简单实现

1.背景    采样算法是机器学习中比较常用,也比较容易实现的(出去分层采样)。常用的采样算法有以下几种(来自百度知道):   一、单纯随机抽样(simple random sampling) 将调查总体全部观察单位编号,再用抽签法或随机数字表随机抽取部分观察单位组成样本。 优点:操作简单,均数、率及相应的标准误计算简单。 缺点:总体较大时,难以一一编号。 二、系统抽样(systemat...
阅读(4587) 评论(1)
248条 共13页首页 上一页 ... 6 7 8 9 10 ... 下一页 尾页
    我的微信公众号

    作者公众号:凡人机器学习

    凡人机器学习

    作者新书《机器学习实践应用》
    个人资料
    • 访问:639827次
    • 积分:9081
    • 等级:
    • 排名:第1947名
    • 原创:215篇
    • 转载:33篇
    • 译文:0篇
    • 评论:417条
    博客专栏
    统计