python爬虫
十五十六
这个作者很懒,什么都没留下…
展开
-
xpath结合lxml爬取豆瓣正在上映的电影
源码from lxml import etreeimport requestsurl = 'https://movie.douban.com/cinema/nowplaying/shenzhen/'headers = { 'Referer': 'https://movie.douban.com/', 'User-Agent': 'Mozilla/5.0 (Window...原创 2019-01-18 15:41:06 · 709 阅读 · 2 评论 -
selenium爬取拉勾网职位信息
前倾概要拉勾网的反爬虫做可以说非常好。。。。。用一些常规的反反方法拿不到数据。然后这次就利用selenium模仿用户行为去获取数据。源码import refrom lxml import etreefrom selenium import webdriverfrom time import sleepfrom selenium.webdriver.common.by import B...原创 2019-01-28 17:05:50 · 1198 阅读 · 4 评论 -
数据提取-XPath语法与lxml库
XPath简介XPath(XML Path Language) 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。XPath 是 W3C XSLT 标准的主要元素,并且 XQuery 和 XPointer 都构建于 XPath 表达之上。因此,对 XPath 的理解是很多高级 XML 应用的基础。XPath开发工具Chrome插件XPath ...原创 2019-01-16 21:51:25 · 754 阅读 · 0 评论 -
Selenium基本使用
简介Selenium Python 提供了一个简单的API 便于我们使用 Selenium WebDriver编写 功能/验收测试。 通过Selenium Python的API,你可以直观地使用所有的 Selenium WebDriver 功能Selenium Python提供了一个很方便的接口来驱动 Selenium WebDriver , 例如Firefox、Chrome、Ie,以及Rem...原创 2019-01-27 12:50:42 · 526 阅读 · 0 评论 -
Requests库基本使用
简介Requests是一个优雅而简单的Python HTTP库,专为人类而构建基本使用import requestskv={'wd':'卷福'}headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68....原创 2019-01-16 15:32:07 · 247 阅读 · 2 评论 -
pytesseract安装与基本使用
简介Tesseract是一个光学字符识别引擎,支持多种操作系统。Tesseract是基于Apache许可证的自由软件,自2006 年起由Google赞助开发,被认为是最精准的开源光学字符识别引擎之一。安装第一步:下载软件链接:https://digi.bib.uni-mannheim.de/tesseract/我选的是tesseract-ocr-setup-3.05.01.exe这个版本...原创 2019-01-31 16:54:59 · 3884 阅读 · 1 评论 -
CookieJar模块管理Cookie
CookieJar:管理HTTP cookie值、存储HTTP请求生成的cookie、向传出的HTTP请求添加cookie的对象。整个cookie都存储在内存中,对CookieJar实例进行垃圾回收后cookie也将丢失。FileCookieJar (filename,delayload=None,policy=None):从CookieJar派生而来,用来创建FileCookieJar...原创 2019-01-16 12:15:45 · 952 阅读 · 2 评论 -
urllib库基本使用
简介urllib 是一个收集几个模块以处理URL的包:urllib.request 用于打开和读取URLurllib.error 包含由 urllib.request产生的异常urllib.parse 用于解析URLurllib.robotparser用于解析robots.txt文件简单使用#urllib.request.urlopen(url, data=None, [time...原创 2019-01-16 11:51:37 · 255 阅读 · 0 评论 -
数据存储-JSON文件处理
简介JSON(JavaScript Object Notation, JS 对象标记) 是一种轻量级的数据交换格式。它基于 ECMAScript (欧洲计算机协会制定的js规范)的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言。 易于人阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率。JSON支持数据格式...转载 2019-01-21 17:30:11 · 795 阅读 · 0 评论 -
数据提取-正则表达式基本使用
正则表达式正则表达式是对字符串(包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为“元字符”))操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是一种文本模式,模式描述在搜索文本时要匹配的一个或多个字符串。常用的特殊字符模式描述^匹配字符串的开头...原创 2019-01-21 14:14:54 · 2987 阅读 · 0 评论 -
多线程爬取斗图网表情包
import requestsimport reimport queueimport threadingimport timeHeaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.10...原创 2019-01-24 19:11:12 · 723 阅读 · 0 评论 -
数据提取-BeautifulSoup4基本使用
简介Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.用来解析HTML比较简单,API非常人性化,支持CSS选择器,Python标准库中的HTML解析器,也支持lxml的xml解析器。四种常用的对象Tag:Beautiful Soup中所有的标签都是Tag类型,并且Beautiful ...原创 2019-01-19 17:32:41 · 1243 阅读 · 0 评论 -
openpyxl模块读写excel
官网示例示例:写入from openpyxl import Workbookfrom openpyxl.compat import rangefrom openpyxl.utils import get_column_letterwb=Workbook()dest_filename = 'empty_book.xlsx'ws1=wb.activews1.title = "ra...转载 2019-01-19 13:04:33 · 441 阅读 · 0 评论 -
爬取电影天堂最新电影(xpath结合lxml)
完整代码import requestsfrom lxml import etreefrom openpyxl import WorkbookBASEURL='https://www.dytt8.net'HEADERS = { 'Referer': 'https://www.dytt8.net/css/index.css', 'User-Agent': 'Mozilla...原创 2019-01-19 12:44:42 · 4953 阅读 · 0 评论 -
数据存储-CSV
简介逗号分隔值(Comma-Separated Values,CSV,其文件以纯文本形式存储表格数据(数字和文本)。纯文本意味着该文件是一个字符序列,不含必须像二进制数字那样被解读的数据。CSV文件由任意数目的记录组成,记录间以某种换行符分隔;每条记录由字段组成,字段间的分隔符是其它字符或字符串,最常见的是逗号或制表符。通常,所有记录都有完全相同的字段序列。通常都是纯文本文件。泛指有以下特征的...原创 2019-01-23 13:25:56 · 410 阅读 · 0 评论