
网络爬虫
文章平均质量分 83
小陈工
菜鸟程序猿,求指导~
展开
-
网络爬虫知识 day10
一、案例扩展1.1定时任务 在案例中我们使用的是Spring内置的Spring Task,这是Spring3.0加入的定时任务功能。我们使用注解的方式定时启动爬虫进行数据爬取。我们使用的是@Scheduled注解,其属性如下: 1)cron:cron表达式,指定任务在特定时间执行; 2)fixedDelay:上一次任务执行完后多久再执行,参数类型为long,单位ms 3)fixedDelayString:与fixedDelay含义...原创 2022-02-26 08:31:49 · 251 阅读 · 0 评论 -
网络爬虫知识 day09
1.2.2 编写页面解析功能1.3 使用和定制Pipeline 在WebMagic中,Pileline是抽取结束后,进行处理的部分,它主要用于抽取结果的保存,也可以定制Pileline可以实现一些通用的功能。在这里我们会定制Pipeline实现数据导入到数据库中1.3.1 Pipeline输出 Pipeline的接口定义如下: public interface Pipeline { // ResultIte...原创 2022-02-23 14:36:02 · 194 阅读 · 0 评论 -
网络爬虫知识 day08
一、案例实现1.1 开发准备1.1.1 创建工程 创建Maven工程,并加入依赖。pom.xml为:<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocatio...原创 2022-02-21 10:53:40 · 283 阅读 · 0 评论 -
网络爬虫知识 day07
三、案例开发分析 我们已经学完了WebMagic的基本使用方法,现在准备使用WebMagic实现爬取数据的功能。这里是一个比较完整的实现。 在这里我们实现的是聚焦网络爬虫,只爬取招聘的相关数据。3.1 业务分析 今天要实现的是爬取https://www.51job.com/上的招聘信息。只爬取“计算机软件”和“互联网电子商务”两个行业的信息。 首先访问页面并搜索两个行业。结果如下: 点击职位详情页,我们...原创 2022-02-20 10:12:38 · 862 阅读 · 0 评论 -
网络爬虫知识 day06
2.2 使用Pipeline保存结果 WebMagic用于保存结果的组件叫做Pipeline。通过“控制台输出结果”这件事也是通过一个内置的Pipeline完成的,它叫做ConsolePipeline。 那么,我现在想要把结果用保存到文件中,怎么做呢?只将Pipeline的实现换成"FilePipeline"就可以了。 2.3 爬虫的配置、启动和终止2.3.1 Spider Spider是爬虫启动的入口。在启动爬虫之前,我们...原创 2022-02-19 09:09:12 · 704 阅读 · 0 评论 -
网络爬虫知识 day05
一、WebMagic介绍 WebMagic项目代码分为核心和扩展两部分。核心部分(webmagic-core)是一个精简的、模块化的爬虫实现,而扩展部分则包括一些便利的、实用性的功能。 WebMagic的设计目标是尽量的模块化,并体现爬虫的功能特点。这部分提供非常简单、灵活的API,在基本不改变开发模式的情况下,编写一个爬虫。 扩展部分(webmagic-extension)提供一些便捷的功能,例如注解模式编写爬虫等。同时内置了一些常用的组件,便于爬虫开...原创 2022-02-18 08:16:50 · 220 阅读 · 0 评论 -
网络爬虫知识 day04
一、封装HttpClient我们需要经常使用HttpClient,所以需要进行封装,方便使用@Componentpublic class HttpUtils {private PoolingHttpClientConnectionManager cm;public HttpUtils() {this.cm = new PoolingHttpClientConnectionManager();// 设置最大连接数...原创 2022-02-16 08:13:02 · 315 阅读 · 0 评论 -
网络爬虫知识 day03
一、爬虫案例1.1需求分析 访问京东,搜索手机,分析页面,抓取以下商品数据: 商品图片、价格、标题、商品详情页1.1.1 SPU和SKU 除了以上四个属性以外,我们发现上图中的苹果手机有四种产品,我们应该每一种都要抓取。那么这里就必须要了解spu和sku的概念 SPU = Standard Product Unit (标准产品单位) SPU是商品信息聚合的最小单位,是一组可复用、易检索的标准化信息的集合,...原创 2022-02-14 11:29:44 · 163 阅读 · 0 评论 -
网络爬虫知识 day02
2.5 连接池 如果每次请求都要创建HttpClient,会有频繁创建和销毁的问题,可以使用连接池来解决这个问题。2.6 请求参数 有时候因为网络,或者目标服务器的原因,请求需要更长的时间才能完成,我们需要自定义相关时间三、Jsoup 我们抓取到页面之后,还需要对页面进行解析。可以使用字符串处理工具解析页面,也可以使用正则表达式,但是这些方法都会带来很大的开发成本,所以我们需要使用一款专门解析html页面的技术。3.1...原创 2022-02-12 08:14:24 · 365 阅读 · 0 评论 -
NLP(自然语言处理技术)
一、需求:给一个excel存储的立场语字典,用自然语言处理技术(NLP)进行扩展,得到一个更大的立场语字典。实现代码:核心知识点:用pandas包进行excel表的读写操作,用nltk包的wordnet包对表中单词数据进行分析处理,返回单词的同义词数据,整理成表存入新的excel表中。扩展:什么是NLP?简单来说,自然语言处理(NLP)就是开发能够理解人类语言的应用程序或服务。处理自然语言的关键是要让计算机“理解”自然语言,所以自然语言处理...原创 2022-02-11 08:09:32 · 7111 阅读 · 0 评论 -
网络爬虫知识 day01
一、网络爬虫概述1.1网络爬虫介绍 在大数据时代,信息的采集是一项重要的工作,而互联网中的数据是海量的,如果单纯靠人力进行信息采集,不仅低效繁琐,搜集的成本也会提高。如何自动高效地获取互联网中我们感兴趣的信息并为我们所用是一个重要的问题,而爬虫技术就是为了解决这些问题而生的。 网络爬虫(Web crawler)也叫做网络机器人,可以代替人们自动地在互联网中进行数据信息的采集与整理。它是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,可以自动采集所有其能够访问...原创 2022-02-10 08:19:34 · 849 阅读 · 0 评论