- 博客(7)
- 收藏
- 关注
原创 python爬虫还在用BeautifulSoup?你有更好的选择!
1.前言1.1 抓取网页本文将举例说明抓取网页数据的三种方式:正则表达式、BeautifulSoup、lxml。 获取网页内容所用代码详情请参照Python网络爬虫-你的第一个爬虫。利用该代码获取抓取整个网页。import requestsdef download(url, num_retries=2, user_agent='wswp', proxies=None): ...
2018-03-07 22:41:08 9902 2
原创 Python网络爬虫-你的第一个爬虫(requests库)
0.采用requests库虽然urllib库应用也很广泛,而且作为Python自带的库无需安装,但是大部分的现在python爬虫都应用requests库来处理复杂的http请求。requests库语法上简洁明了,使用上简单易懂,而且正逐步成为大多数网络爬取的标准。1. requests库的安装采用pip安装方式,在cmd界面输入:pip install requests...
2018-03-07 22:43:37 669
原创 python网络爬虫-爬取网页的三种方式(1)
0.前言0.1 抓取网页本文将举例说明抓取网页数据的三种方式:正则表达式、BeautifulSoup、lxml。 获取网页内容所用代码详情请参照Python网络爬虫-你的第一个爬虫(我的简书博客)。利用该代码获取抓取整个网页。import requestsdef download(url, num_retries=2, user_agent='wswp', proxies=...
2018-03-07 00:15:33 5379 1
原创 python 网络爬虫第三章-爬取外部网站
前言上一篇中我们在维基百科的内部网站上随机跳转进入文章类网页,而忽视外部网站链接。本篇文章将处理网站的外部链接并试图收集一些网站数据。和单个域名网站爬取不同,不同域名的网站结构千差万别,这就意味我们的代码需要更加的灵活以适应不同的网站结构。 因此,我们将代码写成一组函数,这些函数组合起来就可以应用在不同类型的网络爬虫需求。随机跳转外部链接利用函数组,我们可以在50...
2018-02-23 11:34:54 2162
原创 python 正则表达式包含变量的写法
正则表达写法: re.compile(r’表达式’)包含变量的正则表达式写法 re.compile(r’表达式’+变量+’表达式’) re.compile(r’表达式(%s)表达式’ %变量)示例代码:url = "oreilly.com"regex3 = re.compile(r"^((/|.)*(%s))" %url)regex4 = re.compile(r"^((...
2018-02-23 10:47:23 25254 1
原创 python爬虫 - BeautifulSoup(2)子孙节点(.children .descendants)和父节点(.parents)
3. 1子节点和子孙节点soup.body.h1# 选中body 标签下的h1,这个h1 标签是body标签的子节点同理,soup.div.find_all(‘img’)会找到所有div里面的img标签。.children 和.descendants对比代码如下:html = urlopen('http://www.pythonscraping.com/pages/page...
2018-02-20 19:48:22 14990
原创 python网络爬虫 - BeautifulSoup(1) .find() & .find_all()
0. 前言在介绍BeautifulSoup模块前, 我们先分析一下我们要爬取的网页结构是什么样的。通常网页都包含层叠样式表(英文全称:Cascading Style Sheets),例如。 推荐使用谷歌浏览器或者火狐浏览器方便快捷查看网页结构。例如在chrome中百度首页右击,选择’inspect’,即可查看到网页结构,以及各个标签层级关系。1. 创建爬虫爬取网页爬取网站:url ...
2018-02-20 19:19:31 3971
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人