自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

转载 一文读懂机器学习,大数据/自然语言处理/算法全有了……

在本篇文章中,我将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践。这篇文档也算是EasyPR开发的番外篇,从这里开始,必须对机器学习了解才能进一步介绍EasyPR的内核。当然,本文也面对一般读者,不会对阅读有相关的前提要求。在进入正题前,我想读者心中可能会有一个疑惑:机器学习有什么重要性,以至于要阅读完这篇非常长的文章呢?我

2017-04-27 16:04:36 426

转载 关于java开发、网络爬虫、自然语言处理、数据挖掘简介与关系小结

近日在爬虫、自然语言处理群320349384中,有不少群友讨论也有不少私聊的同学如标题的内容,在这里做一个小综述,多为个人总结,仅供参考,在此只侧重技术层面的描述,不掺杂业务相关.     一、Java开发,主要包括应用开发、web开发、移动端Java me、Android开发。          (1) 应用开发,即Java SE开发,不属于java的优势所在,所以市场占有率很低

2017-04-27 15:57:26 523

转载

男票进了阿里后,基本每天十点后下班,到家近12点,还得接着捣鼓。反正已经习惯了每天11:30说晚安,然后他还没到家==首先不是所有部门都是996其次,996的部门中不是所有人都在干活对于996的损失和离开阿里的损失来说,大多数人选择前者;对有上进心和正常时间干不完活的人来说,不需要996他们也会加班加点,否则的话----------我也认识很多周六就过去玩一天的

2017-04-27 13:49:48 315

转载 Nutch爬去目录内容

nutch爬虫在执行数据抓取的过程中,在data目录下面有crawldb和segments两个目录: 下面我们对这两个目录里面的内容做详细的介绍:1. crawldbcrawldb里面存储的是爬虫在抓取过程中的所有的URL,里面也有两个目录:current和old。  之前已经抓取过的url放到old目录中,当前需要执行的放到current目录里面。在c

2017-04-26 16:27:22 279

转载 究极好的一篇文章,开源项目的用法

软件开发领域有一个流行的原则:DRY,Don’t repeat yourself,我们翻译过来更形象通俗:不要重复造轮子。开源项目主要目的是共享,其实就是为了让大家不要重复造轮子,尤其是在互联网这样一个快速发展的领域,速度就是生命,引入开源项目,可以节省大量的人力和时间,大大加快业务的发展速度,何乐而不为呢? 然而现实往往没有那么美好,开源项目虽然节省了大量的人力和时间,但带来的问

2017-04-18 22:36:59 327

原创 lucene 简单实现

lucene 简单实现public class TestLucene { /** * * 使用indexWriter 对数据建立索引.. * @throws IOException */ @Test public void testCreateIndex() throws IOException{ //索引存放的位置.... 1 Directory

2017-04-17 19:44:43 393

转载 几种 开源的 crawler框架对比

Larbin开发语言:C++http://larbin.sourceforge.net/index-eng.htmllarbin是个基于C++的web爬虫工具,拥有易于操作的界面,不过只能跑在Linux下,在一台普通PC下larbin每天可以爬5百万个页面(当然啦,需要拥有良好的网络)简介Larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人 Sébastien A

2017-04-10 16:16:00 1105

转载 利用 Heritrix 构建特定站点爬虫

Heritrix 是一个由 java 开发的、开源的网络爬虫,用户可以使用它来从网上抓取想要的资源。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取逻辑。本文详细介绍了 Heritrix 在 Eclipse 中的配置、运行,最后以抓取北京林业大学网站为例,介绍如何对其进行扩展,实现只抓取特定网站的页面。本文由浅入深,详细介绍了 Heritrix 在 Eclipse 中的配置

2017-04-10 16:01:07 445

转载 八大爬虫采集器

神箭手云采集:一款新颖的云端在线智能爬虫/采集器,基于神箭手分布式云爬虫框架,帮助用户快速获取大量规范化的网页数据,帮助客户快速轻松地获取大量规范化数据。特点:直接接入代理IP,无需设置便可避免因IP被限制访问导致的无法采集的问题;          自动登录验证码识别,网站自动完成验证码输入,无需人工看管;          可在线生成图标,采集结果以丰富表格化形

2017-04-07 14:47:00 6245

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除