大发的博客

学习,实践,总结,再学习。循环往复,持续精进

爬虫基本原理与实战---1、爬虫实战概述

一、开发前准备 1、开发环境准备 基础准备(win10) 参考:python2与python3共存安装 参考: pycharm安装及永久激活 参考: mysql及navicat安装与使用及navicat破解 参考:安装cmde...

2018-04-13 14:29:53

阅读数 333

评论数 0

爬虫基本原理与实战---2、爬虫的基本流程

参考:http://www.cnblogs.com/zhaof/p/7173094.html  在上文中我们说了:爬虫就是请求网站并提取数据的自动化程序。其中请求,提取,自动化是爬虫的关键!下面我们分析爬虫的基本流程 爬虫的基本流程 发起请求 通过HTTP库向目标站点发起请求,也...

2018-04-26 09:19:19

阅读数 145

评论数 0

爬虫基本原理与实战---3、Urllib库的基本使用

官方文档地址:https://docs.python.org/3/library/urllib.html 转载自:https://www.2cto.com/kf/201801/714859.html 什么是 Urllib 库?  urllib 库 是 Python 内置的 HTTP 请求...

2018-04-26 09:18:43

阅读数 90

评论数 0

爬虫基本原理与实战---4、Requests库的基本使用

https://www.cnblogs.com/zhaof/p/6915127.html

2018-04-26 09:18:15

阅读数 82

评论数 0

爬虫基本原理与实战---6、BeautifulSoup库的使用

BeautifulSoup库是灵活又方便的网页解析库,处理高效,支持多种解析器。利用它不用编写正则表达式即可方便地实现网页信息的提取。 BeautifulSoup库的安装,可参见博客:http://blog.csdn.net/qq_29186489/article/details/7858124...

2018-04-26 09:17:48

阅读数 337

评论数 0

爬虫基本原理与实战---7、PyQuery库的使用

PyQuery库也是一个非常强大又灵活的网页解析库,如果你有前端开发经验的,都应该接触过jQuery,那么PyQuery就是你非常绝佳的选择,PyQuery 是 Python 仿照 jQuery 的严格实现。语法与 jQuery 几乎完全相同,所以不用再去费心去记一些奇怪的方法了。 官网地址:h...

2018-04-26 09:17:19

阅读数 59

评论数 0

爬虫基本原理与实战---8、Selenium库的使用

转载自:http://www.pythonsite.com/?p=188

2018-04-26 09:16:50

阅读数 236

评论数 0

爬虫基本原理与实战---8、关于深度优先和广度优先

网站的树结构 深度优先算法和实现 广度优先算法和实现 网站的树结构 通过伯乐在线网站为例子: 并且我们通过访问伯乐在线也是可以发现,我们从任何一个子页面其实都是可以返回到首页,所以当我们爬取页面的数据的时候就会涉及到去重的问题,我们需要将爬过的url记录下来,我们将上图进行更改 ...

2018-04-26 09:16:11

阅读数 583

评论数 0

爬虫基本原理与实战---10、Cookie和Session

关于cookie和session估计很多程序员面试的时候都会被问到,这两个概念在写web以及爬虫中都会涉及,并且两者可能很多人直接回答也不好说的特别清楚,所以整理这样一篇文章,也帮助自己加深理解 什么是Cookie 其实简单的说就是当用户通过http协议访问一个服务器的时候,这个服务器会将...

2018-04-26 09:15:23

阅读数 103

评论数 0

爬虫基本原理与实战---5、正则的基本使用

一、了解正则表达式 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。 正则表达式是用来匹配字符串非常强大的工具,在其他编程语言中同样有正则表达式的概念,Python同样不例外...

2018-04-25 16:08:11

阅读数 52

评论数 0

爬虫基本原理与实战---12、选择器的用法

Scrapy提取数据有自己的一套机制,被称作选择器(selectors),通过特定的Xpath或者CSS表达式来选择HTML文件的某个部分 Xpath是专门在XML文件中选择节点的语言,也可以用在HTML上。 CSS是一门将HTML文档样式化语言,选择器由它定义,并与特定的HTML元素的样式相...

2018-04-25 15:51:43

阅读数 183

评论数 0

scrapy原码解读---CrawlSpider

CrawlSpider也继承自Spider,所以具备它的所有特性,在CrawlSpider源码中最先定义的是类Rule。 一、Rule类 class Rule(object): def __init__(self, link_extractor, callback=None,...

2018-04-06 09:32:16

阅读数 117

评论数 0

scrapy原码解读---Spider

一、spider的作用和功能 根据url生成Request并指定回调方法处理Response。第一个Request是通过start_requests()产生的; 在回调方法中,解析页面的Response,返回Item实例或者Request实例,或者这两种实例的可迭代对象; ...

2018-04-06 09:31:26

阅读数 186

评论数 0

Python高效编程实战---10、百度语音识别

参考:http://ai.baidu.com/docs#/Begin/top 参考代码: # -*- coding: utf-8 -*- import requests import json # 录音 # from record import Record from Record i...

2018-03-28 09:05:48

阅读数 1485

评论数 0

Python高效编程实战---9、浅谈 Python 的 with 语句

引言  with 语句是从 Python 2.5 开始引入的一种与异常处理相关的功能(2.5 版本中要通过 from __future__ import with_statement 导入后才可以使用),从 2.6 版本开始缺省可用(参考 What’s new in Python 2.6? 中 ...

2018-03-27 11:22:05

阅读数 57

评论数 0

Python高效编程实战---8、装饰器使用技巧进阶

一、使用装饰器函数 def memo(func): cache = {} def wrap(*args, **kwargs): if args not in cache: cache[args] = func(*args, **kwa...

2018-03-27 11:21:36

阅读数 73

评论数 0

Python高效编程实战---7、并发编程核心技术应用进阶

一、如何使用多线程、线程间通信、线程间事件通信 # -*- coding: utf-8 -*- import csv from xml.etree.ElementTree import Element, ElementTree import requests from StringIO i...

2018-03-27 11:20:15

阅读数 232

评论数 0

Python高效编程实战---6、类与对象深度技术进阶

一、如何派生内置不可变类型并修改实例化行为 # 将列表变成元组,且只保留大于0的整数 class IntTuple(tuple): def __new__(cls, iterable): g = (x for x in iterable if isinstance(...

2018-03-27 11:19:51

阅读数 166

评论数 0

Python高效编程实战---5、csv json xml excel高效解析与构建技巧

一、如何读写csv数据 from urllib import urlretrieve # urlretrieve('http://finance.yahoo.com/d/quotes.csv?s=000001.sz','pingan1.csv') # 从网址下载文件存到文件中 impor...

2018-03-27 11:19:14

阅读数 93

评论数 0

Python高效编程实战---4、文件IO高效处理技巧

一、如何读写文本文件 # python2 下读写文本文件 f = open('txt.txt', 'w') str = 'litaifa' # 实际是字节串 str = u'你好,中国' # unicode 串 以/0xff/0xe1形式存在 f.write(str.encode('...

2018-03-27 11:18:28

阅读数 834

评论数 0

提示
确定要删除当前文章?
取消 删除