爬虫
金玉良缘2017
这个作者很懒,什么都没留下…
展开
-
爬虫基础
1、爬虫的概念爬虫是什么爬虫又叫网络爬虫,是一种运行在互联网上为了获取数据的自动化程序。爬虫简单的分类百度 互联网所有的 通用爬虫为做数据分析而存在的爬虫, 垂直爬虫。淘宝评论爬虫淘宝商品爬虫分类的标准:根据数据量或者业务范围在互联网上,大多数都是垂直爬虫,也就是值爬取一定范围内的数据。爬虫爬取一个页面的流程 指定一个URL 发起一个网络请求 HTTP 得到一个HTML文档 解析HTML文档 爬虫爬原创 2017-10-19 21:45:19 · 595 阅读 · 0 评论 -
爬虫的综合案例
爬虫的综合案例爬取虎嗅网的完整Demo创建Maven项目 首先引入依赖 <dependencies> <dependency> <groupId>org.apache.httpcomponents</groupId> <artifactId>httpclient</artifactId> <version>原创 2017-10-19 22:15:06 · 477 阅读 · 0 评论 -
Lucene学习总结之全文检索的基本原理
一、总论 根据http://lucene.apache.org/java/docs/index.html 定义: Lucene 是一个高效的,基于Java 的全文检索库。 所以在了解Lucene之前要费一番工夫了解一下全文检索。 那么什么叫做全文检索呢?这要从我们生活中的数据说起。 我们生活中的数据总体分为两种:结构化数据 和非结构化数据 。 结构化数据: 指具原创 2017-10-21 23:58:04 · 385 阅读 · 0 评论