自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

转载 代理IP爬取和验证(快代理&西刺代理)

前言仅仅伪装网页agent是不够的,你还需要一点新东西今天主要讲解两个比较知名的国内免费IP代理网站:西刺代理&快代理,我们主要的目标是爬取其免费的高匿代理,这些IP有两大特点:免费,不稳定(至于为什么要爬不稳定的免费的代理,你心里难道没点B+树么,高富帅谁** 过来学爬虫,还爬代理,人家直接买好么~)目标给出目标网站,盘它快代理高匿代理 IP(https:/...

2019-01-25 14:36:00 382

转载 Jsoup-简单爬取知乎推荐页面(附:get_agent())

总览今天我们就来小用一下Jsoup,从一个整体的角度来看一看爬虫一个基本的爬虫框架包括:[x] 解析网页[x] 失败重试[x] 抓取内容保存至本地[x] 多线程抓取***分模块讲解将上述基本框架的模块按逻辑顺序讲解,一步一步复现代码实现过程失败重试一个好的模块必然有异常捕捉和处理在之前的内容中,我们提到过一个简单的异常处理,小伙伴还记得么简易版...

2019-01-23 14:27:00 290

转载 Jsoup-基础练习

认识Jsoup一个解析网页的工具无论你用什么语言爬虫,都要解析网页,今天,我们用一款常用的网页解析Jsoup,来开启爬虫的第一课认识网页,认识爬虫,认识你自己***快速上手了解一个新东西最快的方法就是频繁的使用和练习,让我们从最基础的地方开始解析一个HTML字符串 // 使用静态Jsoup.parse(String html) 方法或 Jsoup....

2019-01-17 10:36:00 153

转载 取数据超过内存限制的问题-解决方案(sample,takeSample,filter)

遇到的问题在处理数据过程中,遇到需要取(n)个数的问题,而当样本量过大的时候,就不能简单的take(n),这类问题一般有两种情况:> - 有序取 TopN> - 无序取 N先来讨论无序取N的情况:sample函数sample(boolean, fraction,seed) : 按比例抽取返回一个新的RDDwithReplacement:元素可以多次...

2019-01-16 14:26:00 304

转载 说出你的故事:你为什么学爬虫

前传传闻在一个叫做互联网的神奇世界里,有一群神秘的人,每到夜深人静,黑夜笼罩大地的时刻,他们才揭开神秘的面纱,显露出各种各样的神奇能力,他们有的会搬砖,有的会造轮子,当然最厉害的还是一种叫做拷贝的术法...据说这个神秘的团体流派众多Java派,PHP派,C++派,等等等等,不过奇怪的是,不论他们属于什么宗派,信仰什么流派,他们都有稀疏的发量,高挑的发际线,而且功力越是深厚,越是闪闪...

2019-01-10 20:45:00 114

转载 hadoop第一次面到hr(品友互动)

第一次“北漂”准备了一个星期的Hadoop,把林子雨老师的视频刷了一遍,翻出了好久没用的小本本,密密麻麻的记了一大堆。刷了网上能找到的Hadoop的所有面试题(这个真的很重要)然后,启程,北上,还好我对铺的小胖子陪着我(md回来的时候他竟然找到工作了...)第一天上午蓝色光标,下午品友蓝色光标:上来做了俩题(二分查找(不递归)+一个while的时间复杂度log2n)...

2017-11-14 20:25:00 121

转载 MapReduce本地运行模式wordcount实例(附:MapReduce原理简析)

1. 环境配置a) 配置系统环境变量HADOOP_HOMEb) 把hadoop.dll文件放到c:/windows/System32目录下c) hadoop-2.6.0\share\hadoop\common\sources目录下hadoop-common-2.6.0-sources.jar文件...

2017-07-29 10:33:00 237

转载 初识HDFS(10分钟了解HDFS、NameNode和DataNode)

概览首先我们来认识一下HDFS, HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。它其实是将一个大文件分成若干块保存在不同服务器的多个节点中。通过联网让用户感觉像是在本地一样查看文件,为了降低文件丢失造成的错误,它会为每个小文件复制多个副本(默认为三个),以此来实现多机器上的多用户分享文件和存储空间。HDFS特点:...

2017-07-26 14:03:00 937

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除