Daphar-CSDN博客

原创爬虫基本原理与实战---1、爬虫实战概述

一、开发前准备1、开发环境准备基础准备(win10) 参考：python2与python3共存安装参考： pycharm安装及永久激活参考： mysql及navicat安装与使用及navicat破解参考：安装cmder替代cmd 推荐虚拟环境搭建进入到想要存放虚拟环境的目录下，安装virtualenvwrapper： pip in...

2018-04-13 14:29:53 2493

原创使用Power BI Synoptic Panel显示着色地图

使用Power BI Synoptic Panel显示着色地图

2022-08-10 11:51:00 1449 1

转载：https://zhuanlan.zhihu.com/p/358718431前排推荐下我自己花了一年时间整理的三本在线文档，适用于每一个 Python 工程师。第一本：第二本：第三本：以下是下文：花了一点时间收集了 Python 中 1000 + 的库，包括内置库、第三方库，总体可以分为 14 大类，对于每个库的用途，我都作了下简单的说明，大家可以点赞，收藏起来，有需要的时候，使用 Ctrl+F 来搜索即可。1. 数据处理Chardet字符编码探测器，可以自动检测文本、网页、xml的

2021-09-12 21:32:11 739

转载 Python--Python中的魔法函数

转载：https://zhuanlan.zhihu.com/p/356071173介绍的魔法函数有（持续更新）： __ init__()、__ str__()、__ new__()、__ unicode__()、 __ call__()、 __ len__()、 __repr__()、__ setattr__()、 __ getattr__()、 __ getattribute__()、 __ delattr__()、__ setitem__()、 __ getitem__()、__ delitem__

2021-09-12 21:21:40 404

原创 python--logging模块使用教程

简单使用#!/usr/local/bin/python# -*- coding:utf-8 -*-import logginglogging.debug('debug message')logging.info('info message')logging.warn('warn message')logging.error('error message')logging.crit...

2021-09-07 13:52:31 480

转载 python--常用模块

转载：https://www.cnblogs.com/Eva-J/articles/7228075.html#_label9阅读目录认识模块什么是模块模块的导入和使用常用模块一 collections模块时间模块 random模块 os模块 sys模块序列化模块 re模块常用模块二 hashlib模块 con阅读目录认识模块什么是模块模块的导入和使用常用模块一collections模块时间模块random模块os模块sys模块序列化模块re模块常用

2021-09-06 22:32:34 345

转载 python--模块和包

转载：https://www.cnblogs.com/Eva-J/articles/7292109.html阅读目录一模块 3.1 import 3.2 from … import… 3.3 把模块当做脚本执行 3.4 模块搜索路径 3.5 编译python文件二1 什么是模块？常见的场景：一个模块就是一个包含了 python 定义和声明的文件，文件名就是模块名字加上. py 的后缀。但其实 import 加载的模块分为四个通用类别：1 使用 python 编写的代码（.py 文件）2

2021-09-06 22:30:11 241

原创 Mysql基础操作到进阶

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。本文链接：https://blog.csdn.net/qq_43965708/article/details/120037528文章目录1. 查询1.1 查询多列1.2 检索唯一值1.3 限制输出1.4 注释2. ORDER BY 排序2.1 单列排序3.2 多列排序3.3 指定排序方向4. WHERE 过滤数据4.1 WHERE 子句操作符4.2 范围值检查4.3 空值检查5. 高级数据过滤5.1

2021-09-06 22:21:00 274

转载 python--命名空间与作用域

转载：https://3yya.com/lesson/56一、命名空间命名空间为 namespace 的直译。从名字上就很容易理解，命名空间为存储命名的空间。听起来有点绕，没关系。我们先来理解什么是命名。num = 5name = 'xiaoming'以上，我们简单地定义了两个变量，便等同于创建了两个名字与对象的对应关系，这种建立名字与对象映射关系的行为便是命名。字典就是一个名字与值对应的典型例子，这使得 python 中的命名空间通常用字典实现。print(globals()){

2021-09-06 16:59:04 324

转载 python--生成器

转载：https://3yya.com/lesson/68一、什么是生成器在写迭代器的时候我们每次都要定义一个 class ，实现其中的 __iter__ 与 __next__ 是不是略感麻烦。之前返回一个小于等于指定值的正整数的迭代器我们就可以用生成器来这么写。def positive(limit): n = 1 while n <= limit: yield n n += 1for n in positive(5): print

2021-09-06 16:22:45 90

转载 python--迭代器

转载：Source一、什么是迭代器我们先来看一个最简单的迭代器class Positive: def __init__(self, limit): self.limit = limit self.n = 0 def __iter__(self): return self def __next__(self): self.n += 1 if self.n <= self.limit:

2021-09-06 15:44:57 145

转载 python--闭包

参考：Source在 python 里万物皆对象，函数也不例外，于是乎我们可以在一个函数中定义另一个函数作为返回值。def func(): def wrapper(): print('你好') return wrapperresult= func()result()你好这就是一个闭包(closure)了吗？还少了点味。因为根据维基百科上对闭包的定义：在支持头等函数的语言中，如果函数f内定义了函数g，那么如果g存在自由变量，且这些自由变量没有在编译过

2021-09-06 14:45:40 147

转载 python--装饰器

参考：Source装饰器来自 Decorator 的直译，理解装饰这个词就等于理解了装饰器。什么叫装饰，就是装点、提供一些额外的点缀。在 python 中的装饰器则是提供了一些额外的功能。在学习闭包的时候我们就已经知道，函数是一个对象。这意味着函数：能在函数中定义一个函数能作为参数传递能作为返回值来看一个简单的例子。def decorator(func): def wrapper(*args, **kwargs): print('123') re

2021-09-06 14:25:41 316

转载 Python--正则表达式

原文引自：https://zhuanlan.zhihu.com/p/127807805之前我们讲解了正则表达式语法的起源、发展、流派、语法、引擎、优化等相关知识，今天我们主要来学习一下正则表达式在 Python语言中的应用！大多数编程语言的正则表达式设计都师从Perl，所以语法基本相似，不…之前我们讲解了正则表达式语法的起源、发展、流派、语法、引擎、优化等相关知识，今天我们主要来学习一下正则表达式在 Python语言中的应用！大多数编程语言的正则表达式设计都师从Perl，所以语法基

2021-09-05 10:38:59 153

转载 pandas主要操作 & 读取数据文件

pandas主要操作总结【转载】本文原创出处： http://www.cnblogs.com/xiaoxuebiye/p/7223774.html 导入数据： pd.导入数据：pd.read_csv(filename)：从CSV文件导入数据pd.read_table(filename)：从限定分隔符的文本文件导入数据pd.read_excel(filename)：从Excel文件导入数据 pd.read_sql(query,connection_object)：从SQL表/库导入数据

2021-07-30 07:39:54 1540 1

转载 Python+Selenium基础入门及实践

Python+Selenium基础入门及实践原文参考：https://www.jianshu.com/p/1531e12f8852一、Selenium+Python 环境搭建及配置1.1 selenium 介绍selenium 是一个 web 的自动化测试工具，不少学习功能自动化的同学开始首选 selenium ，因为它相比 QTP 有诸多优点：免费，也不用再为破解 QTP 而大伤脑筋小巧，对于不同的语言它只是一个包而已，而 QTP 需要下载安装 1 个多 G 的程序。这也是最重要的一点，

2021-07-25 22:47:13 5932

原创数据分析常用资源汇集

参考文档具体教程见官方文档https://jupyter-notebook.readthedocs.io/en/stable/notebook.html推荐看这个作者的详细中文教程https://www.jianshu.com/p/91365f343585安装及启动安装前提安装Jupyter Notebook的前提是需要安装了Python（3.3版本及以上，或2.7版本）。......

2020-02-23 10:58:39 284

原创爬虫基本原理与实战---2、爬虫的基本流程

参考：http://www.cnblogs.com/zhaof/p/7173094.html 在上文中我们说了：爬虫就是请求网站并提取数据的自动化程序。其中请求，提取，自动化是爬虫的关键！下面我们分析爬虫的基本流程爬虫的基本流程发起请求通过HTTP库向目标站点发起请求，也就是发送一个Request，请求可以包含额外的header等信息，等待服务器响应获取响应内容...

2018-04-26 09:19:19 386

原创爬虫---3、Urllib库的基本使用

官方文档地址：https://docs.python.org/3/library/urllib.html 转载自：https://www.2cto.com/kf/201801/714859.html什么是 Urllib 库？ urllib 库是 Python 内置的 HTTP 请求库。urllib 模块提供的上层接口，使访问 www 和 ftp 上的数据就像访问本地文件一样。有以下...

2018-04-26 09:18:43 442

转载爬虫基本原理与实战---4、Requests库的基本使用

https://www.cnblogs.com/zhaof/p/6915127.html

2018-04-26 09:18:15 250

原创爬虫---6、BeautifulSoup库的使用

BeautifulSoup库是灵活又方便的网页解析库，处理高效，支持多种解析器。利用它不用编写正则表达式即可方便地实现网页信息的提取。 BeautifulSoup库的安装，可参见博客：http://blog.csdn.net/qq_29186489/article/details/78581249常用的解析库如下：这里写图片描述基本使用如下所示：#_*_coding: u...

2018-04-26 09:17:48 661

原创爬虫---7、PyQuery库的使用

PyQuery库也是一个非常强大又灵活的网页解析库，如果你有前端开发经验的，都应该接触过jQuery,那么PyQuery就是你非常绝佳的选择，PyQuery 是 Python 仿照 jQuery 的严格实现。语法与 jQuery 几乎完全相同，所以不用再去费心去记一些奇怪的方法了。官网地址：http://pyquery.readthedocs.io/en/latest/ jQuery参考文档...

2018-04-26 09:17:19 241

转载爬虫基本原理与实战---8、Selenium库的使用

转载自：http://www.pythonsite.com/?p=188

2018-04-26 09:16:50 664

原创爬虫基本原理与实战---8、关于深度优先和广度优先

网站的树结构深度优先算法和实现广度优先算法和实现网站的树结构通过伯乐在线网站为例子：并且我们通过访问伯乐在线也是可以发现，我们从任何一个子页面其实都是可以返回到首页，所以当我们爬取页面的数据的时候就会涉及到去重的问题，我们需要将爬过的url记录下来，我们将上图进行更改在爬虫系统中，待抓取URL队列是很重要的一部分，待抓取URL队列中的URL以什么样的顺序排队列也...

2018-04-26 09:16:11 1551

原创爬虫基本原理与实战---10、Cookie和Session

关于cookie和session估计很多程序员面试的时候都会被问到，这两个概念在写web以及爬虫中都会涉及，并且两者可能很多人直接回答也不好说的特别清楚，所以整理这样一篇文章，也帮助自己加深理解什么是Cookie其实简单的说就是当用户通过http协议访问一个服务器的时候，这个服务器会将一些Name/Value键值对返回给客户端浏览器，并将这些数据加上一些限制条件。在条件符合时，这个用户...

2018-04-26 09:15:23 375

原创正则的基本用法

一、了解正则表达式正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是用来匹配字符串非常强大的工具，在其他编程语言中同样有正则表达式的概念，Python同样不例外，利用了正则表达式，我们想要从返回的页面内容提取出我们想要的内容就易如反掌了。正则表达式的大致匹配......

2018-04-25 16:08:11 1515

原创爬虫基本原理与实战---12、选择器的用法

Scrapy提取数据有自己的一套机制，被称作选择器（selectors）,通过特定的Xpath或者CSS表达式来选择HTML文件的某个部分 Xpath是专门在XML文件中选择节点的语言，也可以用在HTML上。 CSS是一门将HTML文档样式化语言，选择器由它定义，并与特定的HTML元素的样式相关联。XPath选择器参考：http://www.cnblogs.com/MUMO/p/5...

2018-04-25 15:51:43 321

原创 scrapy原码解读---CrawlSpider

CrawlSpider也继承自Spider，所以具备它的所有特性，在CrawlSpider源码中最先定义的是类Rule。一、Rule类class Rule(object): def __init__(self, link_extractor, callback=None, cb_kwargs=None, follow=None, process_links=None, p...

2018-04-06 09:32:16 264

原创 scrapy原码解读---Spider

一、spider的作用和功能根据url生成Request并指定回调方法处理Response。第一个Request是通过start_requests()产生的；在回调方法中，解析页面的Response，返回Item实例或者Request实例，或者这两种实例的可迭代对象；在回调方法中，通常使用Selectors（也可以使用BeautifulSoup，lxml等）来提取数据...

2018-04-06 09:31:26 460

原创 Python高效编程实战---10、百度语音识别

参考：http://ai.baidu.com/docs#/Begin/top参考代码：# -*- coding: utf-8 -*-import requestsimport json# 录音# from record import Recordfrom Record import Recordrecord=Record(channels=1)audioData=re...

2018-03-28 09:05:48 2065

原创 Python高效编程实战---9、浅谈 Python 的 with 语句

引言 with 语句是从 Python 2.5 开始引入的一种与异常处理相关的功能（2.5 版本中要通过 from __future__ import with_statement 导入后才可以使用），从 2.6 版本开始缺省可用（参考 What’s new in Python 2.6? 中 with 语句相关部分介绍）。 with 语句适用于对资源进行访问的场合，确保不管使用过程中是否发...

2018-03-27 11:22:05 204

原创 Python高效编程实战---7、并发编程核心技术应用进阶

一、如何使用多线程、线程间通信、线程间事件通信# -*- coding: utf-8 -*-import csvfrom xml.etree.ElementTree import Element, ElementTreeimport requestsfrom StringIO import StringIOfrom threading import Thread, Event...

2018-03-27 11:20:15 567

原创 Python高效编程实战---6、类与对象深度技术进阶

一、如何派生内置不可变类型并修改实例化行为 # 将列表变成元组，且只保留大于0的整数class IntTuple(tuple): def __new__(cls, iterable): g = (x for x in iterable if isinstance(x, int) and x > 0) # isinstance()判断x是不是int整数类，...

2018-03-27 11:19:51 351

原创 Python高效编程实战---5、csv json xml excel高效解析与构建技巧

一、如何读写csv数据from urllib import urlretrieve# urlretrieve('http://finance.yahoo.com/d/quotes.csv?s=000001.sz','pingan1.csv') # 从网址下载文件存到文件中import csvwith open('pingan1.csv','rb') as rf: re...

2018-03-27 11:19:14 323

原创 Python高效编程实战---4、文件IO高效处理技巧

一、如何读写文本文件 # python2 下读写文本文件f = open('txt.txt', 'w')str = 'litaifa' # 实际是字节串str = u'你好，中国' # unicode 串以/0xff/0xe1形式存在f.write(str.encode('gbk')) # 需要将unicode串进行编码f.close()f = open('txt.t...

2018-03-27 11:18:28 2002

原创 Python高效编程实战---3、字符串处理技巧

一、如何拆分含有多种分隔符的字符串# 将字符串s分割成列表s = 'abc,eee,weq,e eiu ew weoi|qwei\qe'方案一：用string的split()方法 append和extend都仅只可以接收一个参数，append 任意，甚至是tuple，extend 只能是一个列表 map()它接收一个函数 f 和一个 list，并通过把函数 f 依次作用在 ...

2018-03-27 11:17:56 520

原创 Python高效编程实战---2、对象迭代与反迭代技巧

一、如何实现可迭代对象和迭代器对象# -*- coding: utf-8 -*-import requestsfrom collections import Iterable, Iteratorclass WeatherIterator(Iterator): # 定义迭代器 def __init__(self, cities): self.cities...

2018-03-27 11:17:09 221

原创 Python高效编程实战---1、数据结构与算法进阶

一、在list\dict\set中进行筛选在list中筛选：方法一：[x for x in list if x>10] # 效率更高方法二：filter(lambda x :x>10,list) # lambda 定义一个匿名函数在dict中筛选： {k: v for k, v in dict.items() if v > 85} # 后面添加条件在...

2018-03-27 11:16:25 407

原创 python--intern机制

一、概述要保持追踪内存中的对象，Python使用了引用计数这一简单的技术。二、引用计数的增减2.1 增加引用计数当对象被创建并（将其引用）赋值给变量时，该对象的引用计数被设置为1。对象的引用计数增加的情况：对象被创建：x = 3.14 另外的别名被创建：y = x 被作为参数传递给函数（新的本地引用）：foobar(x) 成为容器对象的一个元素：myList = [1...

2018-03-27 11:15:21 370

原创 python--常用函数

一、命名空间1、什么叫命名空间从python解释器开始执行之后，就在内存中开辟了一个空间，每当遇到一个变量的时候，就把变量名和值之间的对应关系（值的内存地址）记录下来。但是当遇到函数定义的时候解释器只是象征性的将函数名读入内存，表示知道这个函数的存在了，至于函数内部的变量和逻辑解释器根本不关心。等执行到函数调用的时候，python解释器会再开辟一块内存来存储这个函数里...

2018-03-26 15:11:37 268

空空如也

空空如也