Data Mining
文章平均质量分 86
greenapple_shan
这个作者很懒,什么都没留下…
展开
-
方兴未艾的社会计算
随着信息数字化和网络化的进程不断加快,人们的行为轨迹越来越多地被记录下来,这使得利用计算技术观察和研究社会成为可能。2009年2月,美国哈佛大学大卫·拉泽(DavidLazer)等15位美国学者在《Science》上联合发表了一篇具有里程碑意义的文章“Computational SocialScience”,该文指出:“计算社会科学”这一研究领域正在兴起,人们将在前所未有的深度和广度上自动地收集和转载 2013-12-03 19:55:47 · 1028 阅读 · 0 评论 -
数据挖掘中所需的概率论与数理统计知识、上
转载:http://blog.csdn.net/v_july_v/article/details/8308762转载 2014-10-07 11:27:33 · 1381 阅读 · 0 评论 -
浅谈 Adaboost 算法
菜鸟最近开始学习machine learning。发现adaboost 挺有趣,就把自己的一些思考写下来。主要参考了http://stblog.baidu-tech.com/?p=19,其实说抄也不为过,但是我添加了一些我认为有意思的东西,所以我还是把它贴出来了,呵呵。一 Boosting 算法的起源boost 算法系列的起源来自于PAC Learnabilit转载 2014-04-13 09:46:31 · 748 阅读 · 0 评论 -
Boosting, Online Boosting,adaboost
bagging,boosting,adboost,random forests都属于集成学习范畴. 在boosting算法产生之前,还出现过两种比较重要的算法,即boostrapping方法和bagging方法。首先介绍一下这二个算法思路:1. 从整体样本集合中,抽样n* N个样本针对抽样的集合训练分类器Ci ,抽样的方法有很多,例如放回抽样,不放回抽样等.2.转载 2014-03-30 14:10:43 · 849 阅读 · 0 评论 -
C++ 倒排索引的实现
1.1基本介绍 倒排索引的概念很简单:就是将文件中的单词作为关键字,然后建立单词与文件的映射关系。当然,你还可以添加文件中单词出现的频数等信息。倒排索引是搜索引擎中一个很基本的概念,几乎所有的搜索引擎都会使用到倒排索引。1.2 准备工作² 5个源文件Test0.txt, Test1.txt,Test2.txt, Test3.txt, Test4.txt里面包含转载 2015-04-05 10:31:21 · 6512 阅读 · 0 评论 -
TF-IDF模型的概率解释
信息检索概述信息检索是当前应用十分广泛的一种技术,论文检索、搜索引擎都属于信息检索的范畴。通常,人们把信息检索问题抽象为:在文档集合D上,对于由关键词w[1] … w[k]组成的查询串q,返回一个按查询q和文档d匹配度relevance(q, d)排序的相关文档列表D’。对于这一问题,先后出现了布尔模型、向量模型等各种经典的信息检索模型,它们从不同的角度提出了自己的一套解决方案。布尔模型以集合的布尔转载 2015-05-07 19:45:42 · 876 阅读 · 0 评论 -
python解析网页中javascript动态添加的内容
最近,想从中国天气网上抓取数据,其中的网页上的实时天气是使用javascript生成的,用简单的标签解析不到。原因是,那个标签压根就没再网页当中。所以,google了下python怎么区解析动态网页,下面文章对我很有帮助。转载记录:Python在Web Page抓取、JS解析方面的介绍因为我只希望在mac下解析,所以我并没有使用扩平台的库。在使用spidermonkey后,转载 2016-01-10 16:05:21 · 8143 阅读 · 0 评论 -
Python爬虫入门案例:获取百词斩已学单词列表
百词斩是一款很不错的单词记忆APP,在学习过程中,它会记录你所学的每个单词及你答错的次数,通过此列表可以很方便地找到自己在记忆哪些单词时总是反复出错记不住。我们来用Python来爬取这些信息,同时学习Python爬虫基础。首先来到百词斩网站:http://www.baicizhan.com/login这个网站是需要登录的,不过还好没验证码,我们可以先看下在登录过程中浏览器POST了转载 2016-01-10 16:07:17 · 5839 阅读 · 0 评论