![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
201226010617
这个作者很懒,什么都没留下…
展开
-
webmagic——魔法般的爬虫框架
webMagic 是一个非常不错的开发框架。简单易学,只要会java就可以很轻松上手; 首先我先分享一下我学习时所使用资料: 1、http://webmagic.io/(非常好的文档,里面的代码都可以跑,而且还在更新,建议收藏) 2、http://juvenshun.iteye.com/blog/269094(介绍maven建议先装好) 3、http://my.oschina....原创 2014-10-19 22:45:42 · 344 阅读 · 0 评论 -
正则表达式语法总结
正则表达式 用通配符类比正则表达式: 很可能你使用过Windows/Dos下用于文件查找的通配符(wildcard),也就是*和?。如果你想查找某个目录下的所有的Word文档的话,你会搜索*.doc。在这里,*会被解释成任意的字符串。和通配符类似,正则表达式也是用来进行文本匹配的工具,只不过比起通配符,它能更精确地描述你的需求——当然,代价就是更复杂。 下面我们会给大家展现几个简单的例子:...2014-10-27 21:19:00 · 93 阅读 · 0 评论 -
用webmagic实现的网络爬虫
用webmagic实现的网络爬虫 网络蜘蛛(网络爬虫)Web Spider是一个非常形象的比喻,如果我们的网络是一个蜘蛛网,每个节点就是一个网站,联系每个节点的蜘蛛丝就是我们网站的连接。网络爬虫的原理其实不难理解——通过网页的链接地址来寻找网页,从 网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站...2014-11-03 00:11:40 · 290 阅读 · 0 评论 -
初涉数据挖掘
初涉数据挖掘 对于数据挖掘,其实我脑海里只有寥寥无几的个词:大数据,机器学习,搜索;作为一个只听过几节公开课的小白,我希望能够和大家一起进步; 首先我先将我找到的机器学习资料连接分享给大家: http://www.52ml.net/我爱机器学习网,我最主要的学习网站,里面的资料很全很多; http://v.163.com/special/opencourse/machinelearnin...2014-11-24 11:37:26 · 164 阅读 · 0 评论