自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

转载 代理IP爬取和验证(快代理&西刺代理)

前言 仅仅伪装网页agent是不够的,你还需要一点新东西 今天主要讲解两个比较知名的国内免费IP代理网站:西刺代理&快代理,我们主要的目标是爬取其免费的高匿代理,这些IP有两大特点:免费,不稳定(至于为什么要爬不稳定的免费的代理,你心里难道没点B+树么,高富帅谁** 过来学爬虫,还爬代理,人家直接买好么~) 目标 给出目标网站,盘它 快代理高匿代理 IP(https:/...

2019-01-25 14:36:00 369

转载 Jsoup-简单爬取知乎推荐页面(附:get_agent())

总览 今天我们就来小用一下Jsoup,从一个整体的角度来看一看爬虫 一个基本的爬虫框架包括: [x] 解析网页 [x] 失败重试 [x] 抓取内容保存至本地 [x] 多线程抓取 *** 分模块讲解 将上述基本框架的模块按逻辑顺序讲解,一步一步复现代码实现过程 失败重试 一个好的模块必然有异常捕捉和处理 在之前的内容中,我们提到过一个简单的异常处理,小伙伴还记得么 简易版 ...

2019-01-23 14:27:00 285

转载 Jsoup-基础练习

认识Jsoup 一个解析网页的工具 无论你用什么语言爬虫,都要解析网页,今天,我们用一款常用的网页解析Jsoup,来开启爬虫的第一课 认识网页,认识爬虫,认识你自己 *** 快速上手 了解一个新东西最快的方法就是频繁的使用和练习,让我们从最基础的地方开始 解析一个HTML字符串 // 使用静态Jsoup.parse(String html) 方法或 Jsoup....

2019-01-17 10:36:00 145

转载 取数据超过内存限制的问题-解决方案(sample,takeSample,filter)

遇到的问题 在处理数据过程中,遇到需要取(n)个数的问题,而当样本量过大的时候,就不能简单的take(n),这类问题一般有两种情况: > - 有序取 TopN > - 无序取 N 先来讨论无序取N的情况: sample函数 sample(boolean, fraction,seed) : 按比例抽取 返回一个新的RDD withReplacement:元素可以多次...

2019-01-16 14:26:00 291

转载 说出你的故事:你为什么学爬虫

前传 传闻在一个叫做互联网的神奇世界里,有一群神秘的人,每到夜深人静,黑夜笼罩大地的时刻,他们才揭开神秘的面纱,显露出各种各样的神奇能力,他们有的会搬砖,有的会造轮子,当然最厉害的还是一种叫做拷贝的术法... 据说这个神秘的团体流派众多Java派,PHP派,C++派,等等等等,不过奇怪的是,不论他们属于什么宗派,信仰什么流派,他们都有稀疏的发量,高挑的发际线,而且功力越是深厚,越是闪闪...

2019-01-10 20:45:00 104

转载 hadoop第一次面到hr(品友互动)

第一次“北漂” 准备了一个星期的Hadoop,把林子雨老师的视频刷了一遍,翻出了好久没用的小本本,密密麻麻的记了一大堆。刷了网上能找到的Hadoop的所有面试题(这个真的很重要) 然后,启程,北上,还好我对铺的小胖子陪着我(md回来的时候他竟然找到工作了...) 第一天上午蓝色光标,下午品友 蓝色光标: 上来做了俩题(二分查找(不递归)+一个while的时间复杂度log2n) ...

2017-11-14 20:25:00 112

转载 MapReduce本地运行模式wordcount实例(附:MapReduce原理简析)

1. 环境配置 a) 配置系统环境变量HADOOP_HOME b) 把hadoop.dll文件放到c:/windows/System32目录下 c) hadoop-2.6.0\share\hadoop\common\sources目录下hadoop-common-2.6.0-sources.jar文件...

2017-07-29 10:33:00 225

转载 初识HDFS(10分钟了解HDFS、NameNode和DataNode)

概览 首先我们来认识一下HDFS, HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。它其实是将一个大文件分成若干块保存在不同服务器的多个节点中。通过联网让用户感觉像是在本地一样查看文件,为了降低文件丢失造成的错误,它会为每个小文件复制多个副本(默认为三个),以此来实现多机器上的多用户分享文件和存储空间。 HDFS特点: ...

2017-07-26 14:03:00 922

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除