爬虫技术
文章平均质量分 91
python及java爬虫技术知识总结
iceburg-blogs
北京邮电大学计算机技术研究生,主要研究方向为自然语言处理,信息抽取,知识图谱。
展开
-
新浪网首页新闻资讯爬虫项目
一.项目简介 该爬虫是使用Python框架Scrapy开发,用来爬取新浪网首页分类的爬虫项目,适合新手用来学习Scrapy框架的使用及开发流程。 爬虫的目标网站地址:http://news.sina.com.cn/guide/ 项目一共要爬取三级内容,分别是大类,小类,小类中的资讯文章。如下图所示,新闻,体育是一个大类,新闻大类下有国内,国际,社会等几个小类 在国际小类中,有很多资讯文章,该爬虫...原创 2019-04-01 18:15:32 · 1936 阅读 · 0 评论 -
Python爬虫基础-02-提取数据
页面解析和数据提取 在第一篇博客Python爬虫入门中曾分析过通用爬虫和聚焦爬虫,通用爬虫获取整个网页,而聚焦爬虫是针对部分数据进行获取,聚焦爬虫和通用爬虫一样会将整个网页下载下来,但下载下来之后还需要进行处理—将有用的信息提取出来 网页内容根据结构类型可分为两类,非结构化的数据和结构化的数据,不同类型的数据,需要采用不同的方式处理 非结构化数据一般有文本、电话号码、邮箱地址以及HTML文件...原创 2018-07-04 21:09:14 · 727 阅读 · 0 评论 -
Scrapy框架入门
Scrapy简介 Scrapy框架是使用Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试 Scrapy不仅有单机版,开发者还可以使用其集群版Scrapy-redis开发分布式爬虫程序,分布式爬虫有更快的速度和更高的效率 Scrapy用途非常广泛,用户只需要定制开发几个模块就可以...原创 2018-06-11 21:12:41 · 699 阅读 · 0 评论 -
Python爬虫基础-01-带有请求参数的爬虫
在上一篇文章Python爬虫入门中,Python爬虫程序爬取了指定网页的信息,爬虫发出的请求是一个固定的URL和部分请求信息,并没有请求参数,但是爬虫工作过程中发出的请求一般都需要加上请求参数,以完成对指定内容的爬取 HTTP请求分为POST请求和GET请求,这两种请求添加请求参数的方式不同 GET请求 POST请求...原创 2018-06-06 19:06:23 · 12615 阅读 · 4 评论 -
Python爬虫入门
Python爬虫介绍 聚焦爬虫和通用爬虫 爬虫根据其使用场景分为通用爬虫和聚焦爬虫,两者区别并不是很大,他们获取网页信息的方式是相同的。但通用爬虫收集网页的全部信息,而聚焦爬虫则只获取和指定内容相关的网页信息,即需要信息的筛选 爬虫的工作原理 通用爬虫是百度谷歌这样提供搜索服务的公司使用的,他们需要将网上所有的网页信息通过爬虫全部抓取并存储起来,并对这些信息进行分析处理,用户进行搜索时就把...原创 2018-05-31 16:24:20 · 6031 阅读 · 1 评论