Python3
ChaosLee_
这个作者很懒,什么都没留下…
展开
-
Python3爬虫从零开始:抓取天猫电影排行
抓取分析 首先打开要抓取的目标站点:http://maoyan.com/board/4 我们需要爬取得实惠电影名称、主演、评分等信息。可以看到在这个页面只有10部影片,而我们需要爬取前100,也就是需要爬取10页。 滚动到最下方分页列表,打开下一页,可以看到页面的URL发生了变化,多了参数offset=10。根据这个规律,我们可以通过改变URL的offset参数请...原创 2018-10-17 22:04:33 · 466 阅读 · 0 评论 -
Python3爬虫从零开始:正则表达式
正则表达式测试工具:http://tool.oschina.net/regex# 实例1:match()import recontent = 'Hello 123 4567 World_This is a Regex Demo'print(len(content))result = re.match('^Hello\s\d\d\d\s\d{4}\s\w{10}',cont...原创 2018-10-17 22:15:19 · 266 阅读 · 0 评论 -
Python3爬虫从零开始:库的安装
抓取网页之后下一步就是从网页中提取信息。提取方式有很多种,可以利用正则表达式进行提请,但是相对而言比较麻烦繁琐。现在有很多强大的解析库供我们使用,如lxml,Beautiful Soupp,pyquery等。本节对其安装进行介绍。 lxml的安装 lxml支持HTML和XML的解析,支持XPath解析方式。在Windos下直接利用pip安装,执行命令行命令: ...原创 2018-10-14 14:15:50 · 400 阅读 · 0 评论 -
Python3爬虫从零开始:urllib库的使用(一)
官网文档链接:https://docs.python.org/3/library/urllib.html包含4个模块: urllib.request for opening and reading URLs urllib.error containing the exceptions raised by urllib.request urllib.parse for ...原创 2018-10-16 23:39:09 · 345 阅读 · 0 评论 -
Python3爬虫从零开始:urllib库的使用(二)
URLError来自urllib库的error模块,需要imort error实例1:当运行一个不存在的页面,如果没有异常处理,直接from urllib import request,errorrequest.urlopen('https://cuiqingcai.com/index.htm')则会报错:实例2::加上异常处理机制from urllib imp...原创 2018-10-16 23:45:32 · 233 阅读 · 0 评论 -
Python3爬虫从零开始:Xpath的使用
之前我们提取页面信息时使用的是正则表达式,但这比较繁琐,容易出错。XPath提供了简洁明了得路径选择表达式及大量内建函数。可以定位到几乎所有我们想要定位的节点。XPath需要安装lxml库,安装方法。 常用规则nodename 选取此节点的所有子节点 / 从当前节点选取直接子节点 // ...原创 2018-10-20 21:09:12 · 5015 阅读 · 0 评论 -
Python3爬虫从零开始:Beautiful Soup的使用
中文文档:https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/#id49基本用法实例1:from bs4 import BeautifulSouphtml ="""<html><head><title>The Dormouse's story</title></head>.原创 2018-10-21 18:40:44 · 3013 阅读 · 0 评论