【Lecture Share】-------数据抓取

 


【Lecture Share】-------数据抓取

 

前言

     今天又迎来了一个愉快的下午,今天是哪位大神要来分享Lecture呢?

       

       今天和我们分享的是8 期李宝强师哥,帅气十足,幽默还好玩。在这次Lecture中师哥给我们分享了他最近在进行的项目之一,数据的抓取,师哥是在一个金融公司“宜人贷”工作,为什么要这个数据抓取呢?所有贷款人想贷款,公司要了解其所有在网上能找到的相关消费信息;在一个是关于政府的相关文档和信息,这能非常快速的帮助宜人贷定位到。

      

    这么说来,其实这样一个数据抓取,在每个公司都是益大于弊的,对公司的贡献当然是巨大。

 

                                                       




 什么是数据抓取?

         定义: 通俗的说就是从海量的信息中筛选出你需要的资料,这就是信息、数据的抓取。

 

 我们常用的有比如刷票软件,邮件过滤器都是数据抓取的典型例子。

 

注意:一般的工作分为:

(1)登录

(2)访问抓取

(3)存储分析

最重要的是数据的分析,数据的抓取至少大量数据分析的前提。

 

 

 


数据抓取流程:

                                          

获取连接方法:可以直接浏览器中F12,也可以借助其他的软件比如Fiddler 或Charles

             

                                          

 


发起请求工具:有Nutch, HttpClient , jsoup  ,WebMagic  , Selenium等等。

 

这些工具对比详细可以参考:http://www.zhihu.com/question/31427895

 

 

 


小结:


             到今天为止,已经有好几位师哥师姐回来和我们分享技术和经验。现在想来,他们分享的东西,到目前为止我们自己真正能用上的或许不多,但是他们为我们打开一个新的思路,为我们开阔眼界,让我们知道有这么一些东西。

  

  在回想一下,很多师哥师姐聊天都会说道,很多在外面工作的东西其实更提高班学到的东西可能不同,很大情况都是自己重新学习,包括实习也是如此,从这里就反思到,在提高班学习的意义:跟着米老师学习的目的就是为了不跟着米老师也能快速的学习,自我管理以及持续的学习。



 

 



评论 18
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值