python 爬虫系列
文章平均质量分 82
hepann44
这个作者很懒,什么都没留下…
展开
-
python 爬虫系列01 认识 uillib
urllib 是 python 常用内建模块 提供了一系列用于操作 URL 的功能GETuillib 的 request 模块可以非常方便的抓取 URL 内容,也就是发送 GET 请求到指定网页,然后获得服务器的 HTTP 响应from urllib import requestwith request.urlopen('https://api.douban.com/v2/book/2129650'原创 2017-09-04 11:28:50 · 739 阅读 · 0 评论 -
python 爬虫系列02 认识 requests
本系列所有文章基于 python3.5.2requests 是基于 urllib 的三方模块,相比于 uillib, 操作更简洁,功能更强大,而且支持 python3GET直接调用 get 方法请求百度贴吧首页import requestsr = requests.get(url='https://tieba.baidu.com/f') print(r.status_code) print(r.te原创 2017-09-04 15:17:27 · 371 阅读 · 0 评论 -
python 爬虫系列03 认识 BeautifulSoup
本系列所有文章基于 python3.5.2BeautifulSoup 是用来解析 HTML,XML 的 python 库.其功能十分强大,代码十分简洁. 中文文档1 快速开始将一段文档传入 BeautifulSoup 的构造方法,就能得到一个文档的对象, 可以传入一段字符串或一个文件句柄.这里用”爱丽丝梦游仙境”的文档来做例子:from bs4 import BeautifulSouphtml_原创 2017-09-08 16:52:36 · 464 阅读 · 0 评论 -
python 爬虫系列04 实战 中国天气网
本系列所有文章基于 python3.5.2今天利用 系列02 和 系列03的知识完成一个小例子: 爬取中国天气网最近七天数据: 做爬虫需要几步呢? 概况来说需要两步: 第一步是从网络上获取数据(大部分是html) 第二步就是解析数据 1 从网站获取数据 这里我使用 requests 模块来代替内建模块 urllib import requests import random u原创 2017-09-08 17:10:43 · 522 阅读 · 2 评论