爬虫的那些事
文章平均质量分 63
LOLITA0164
小白进城,多多包涵。
展开
-
爬虫基础:使用正则匹配获取网页中的指定内容
本文以爬取国家地理中文网中的旅行类中的图片为例,演示爬虫具备的基本功能。给定初始地址国家地理中文网 : http://www.ngchina.com.cn/travel/获取并分析网页内容a、分析网页结构,确定想要的内容部分我们打开网页,右击选择《显示网页源代码》查看网页结构,下面是我截取的部分我们会发现,图片类型的数据都放在< img >标签 的...原创 2018-05-02 19:52:01 · 19472 阅读 · 0 评论 -
爬虫基础:python获取网页内容
python3x下,我们可以通过一下两种方式获取网页内容获取地址: 国家地理中文网url = 'http://www.ngchina.com.cn/travel/'urllib库1、导入库from urllib import request2、获取网页内容with request.urlopen(url) as file: data = file.r...原创 2018-05-03 11:06:01 · 18932 阅读 · 1 评论 -
初识爬虫
网络爬虫 爬虫一般指网络爬虫,又名网页蜘蛛,蠕虫等,是一种按照一定等规则,自动抓取网页内容的程序或者脚本。产生 相信大家在网络上都有使用过百度,Yahoo,Google等等搜索引擎来搜索资料等等,这些辅助人们检索信息都工具是我们访问万维网都入口和指南,随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战,一种搜集、分析、过滤、决策等功...原创 2018-04-26 18:02:25 · 18801 阅读 · 0 评论 -
爬虫基础:Requests模块
Requests 是基于Python开发的HTTP网络请求库。GET请求import requestsurl = "https://xxxx"response1 = requests.get(url=url)response1.encoding = response1.apparent_encoding # 转码print(response1.url) ...原创 2018-09-02 13:58:34 · 11533 阅读 · 0 评论 -
爬虫基础:Beautiful Soup
参考文档:Beautiful Soup 4.2.0 文档Beautiful Soup 是一个可以从HTML和XML文件中提取数据的Python。它可以实现文档的增删改查操作,我们侧重点是它的查询操作。安装 Beautiful Soup你可以根据自己的系统选择下面的安装代码进行安装操作:$ apt-get install Python-bs4$ easy_install b...原创 2018-09-04 10:37:53 · 11032 阅读 · 0 评论