爬虫
iMazy
不同的思想、不同的路、不同的人生!
展开
-
[Python] - 爬虫之lxml库的用法
`lxml` 用法源自 `lxml python` 官方文档,更多内容请直接参阅官方文档[lxml 官方文档](http://lxml.de/index.html)原创 2017-12-18 17:47:20 · 14817 阅读 · 1 评论 -
[Python] - 爬虫之简介和基本原理
爬虫简介爬虫,即网络爬虫,可理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛,如果它遇到资源,那么它就会抓取下来。一句话形容爬虫:一段自定抓取互联网信息的程序爬虫的作用取互联网数据,为我所用!简单爬虫架构运行流程URL管理器URL简单介绍 URL,即统一资源定位符,也就是我们说的网址,统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示原创 2017-12-18 15:18:37 · 1243 阅读 · 0 评论 -
[Python] - 爬虫之Urllib库的基本使用
1.获取一个网页HTML内容一个网页,实质上就是一段HTML代码,加 JS、CSS,如果把网页比作一个人,那么HTML便是他的骨架,JS便是他的肌肉,CSS便是它的衣服。所以最重要的部分是存在于HTML中的,下面我们就写个例子来获取一个网页下来。# 引入 urllib request 模块import urllib.request# 直接请求网页response = urllib.reques原创 2017-12-21 14:39:39 · 2577 阅读 · 0 评论 -
[Python] - 爬虫之Requests基本使用
Requests 是一个非常强大的 HTTP 请求库,基于 urllib,使网络请求变的非常简洁 官方文档Requests 官方文档安装利用 pip 安装 $ pip3 install requests利用 easy_install easy_install requests初步尝试首先我们引入一个小例子来感受一下import requestsr = requests.get("htt原创 2017-12-22 17:05:58 · 805 阅读 · 0 评论 -
[Python] - 爬虫之Beautiful Soup的基本使用
Beautiful Soup的简介Beautiful Soup 是一个可以从HTML 或 XML 文件中提取数据的 Python 库,最主要的功能是从网页抓取数据官方解释如下: Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。原创 2017-12-24 16:36:50 · 900 阅读 · 0 评论 -
[Python] - 爬虫之 Selenium 的使用
Selenium 介绍安装安装 SeleniumMac OS 系统安装浏览器驱动器 Drivers快速入门简单尝试使用 Selenium 写测试案例页面操作和网页交互填充表单拖放弹出对话框导航历史和位置Cookies元素查找总体概述通过 ID 查找通过 Name 查找通过 XPath 查找username 查找方法Clear 按钮查找通过链原创 2018-01-06 18:14:44 · 1111 阅读 · 0 评论 -
[Python] - 爬虫之抓取 Boss直聘 数据到 Excel 中
声明:此博客爬取的数据只为学习爬虫使用,绝非广告程序介绍文件目录├── Zhipin_spider # 文件夹│ ├── spider_main.py # 调度器。是爬虫的入口,管理各个类│ ├── html_downloader.py # 下载器,负责网页内容的下载│ ├── html_parser.py # 解析器,负责解析数据,获取有价值的数据原创 2018-01-07 17:47:27 · 6378 阅读 · 0 评论