2018年03月_kissazhu

原创 Python爬虫（入门+进阶）学习笔记 1-8 使用自动化神器Selenium爬取动态网页（案例三：爬取淘宝商品）

selenium 是一套完整的web应用程序测试系统，包含了测试的录制（selenium IDE）,编写及运行（Selenium Remote Control）和测试的并行处理（Selenium Grid）。Selenium的核心Selenium Core基于JsUnit，完全由JavaScript编写，因此可以用于任何支持JavaScript的浏览器上。 selenium可以模拟真...

2018-03-28 15:02:38 712

原创 Python爬虫（入门+进阶）学习笔记 1-7 数据入库之MongoDB（案例二：爬取拉勾）

MongoDB：1. 什么是MongoDB MongoDB是一个高性能，开源，无模式的文档型数据库 MongoDB 将数据存储为一个文档，数据结构由键值(key=>value)对组成2. MongoDB相关的安装 Mac OS 安装MongoDB：官网下载：https://www.mongodb.com/download-center#community ...

2018-03-28 11:20:42 685

原创 Python爬虫（入门+进阶）学习笔记 1-6 浏览器抓包及headers设置（案例一：爬取知乎）

爬虫的一般思路：抓取网页、分析请求解析网页、寻找数据储存数据、多页处理本节课主要讲授如何通过谷歌浏览器开发者工具分析真实请求的方法。寻找真实请求的三个步骤分析：使用谷歌浏览器开发者工具分析网页的请求测试：测试URL请求中每个参数的作用，找出控制翻页等功能的参数重复：多次重复寻找符合爬虫需要的真实请求实战环节：爬取知乎通过爬取知乎“轮子哥”——vczh关注的人分析Ajax或者JavaScript加...

2018-03-27 19:35:36 4052

原创 Python爬虫（入门+进阶）学习笔记 1-5 使用pandas保存豆瓣短评数据

1. Python数据分析的工具包numpy： (Numerical Python的简称)，是高性能科学计算和数据分析的基础包pandas：基于Numpy创建的Python包，含有使数据分析工作变得更加简单的高级数据结构和操作工具matplotlib：是一个用于创建出版质量图表的绘图包（主要是2D方面）import pandas as pd #导入pandasimport numpy as np...

2018-03-27 19:17:44 813 1

原创 Python爬虫（入门+进阶）学习笔记 1-4 使用Xpath解析豆瓣短评

本节课程主要介绍解析神器Xpath是什么、Xpath如何安装及使用，以及使用实际的例子讲解Xpath如何解析豆瓣短评的网页并获取数据。解析神器XpathXpath的使用实战环节解析神器Xpath：1. 什么是XpathXPath即为XML路径语言（XML Path Language），它是一种用来确定XML文档中某部分位置的语言。XPath基于XML的树状结构，提供在数据结构树中找寻节点的能力。起...

2018-03-27 17:26:37 878 1

原创 Python爬虫（入门+进阶）学习笔记 1-3 使用Requests爬取豆瓣短评

Requests库介绍：Requests库官方的介绍有这么一句话：Requests 唯一的一个非转基因的 Python HTTP 库，人类可以安全享用。这句话直接并霸气地宣示了Requests库是python最好的一个HTTP库。为什么它有这样的底气？请阅读Requests官方文档。requests库的安装：终端 pip install requestsRequests的简单用法Request...

2018-03-27 17:07:06 3192 3

原创 Python爬虫（入门+进阶）学习笔记 1-2 初识Python爬虫

本人Mac + Anaconda(Python3) + PyCharm + Chrome简单来说，Anaconda是包管理器和环境管理器。Anaconda 附带了一大批常用数据科学包，它附带了 conda、Python 和 150 多个科学包及其依赖项。因此你可以立即开始处理数据。Anaconda 是在 conda（一个包管理器和环境管理器）上发展出来的。在数据分析中，你会用到很多第三方的包，而c...

2018-03-27 16:52:17 2361

原创 Python爬虫（入门+进阶）学习笔记 1-1 什么是爬虫？

爬虫的定义：网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。网页的两种加载方法同步加载：改变网址上的某些参数会导致网页发生改变，例如：www.itjuzi.com/company?page=1（改变page=后面的数字，网页会发生改变）异步加载：改变网址上的参数不会使网页发生改变，例如：www.lago...

2018-03-27 16:33:42 2177

kissazhu的博客