难瘦的小灿-CSDN博客

原创 python邮件管理

python邮件管理一、基本概念1、协议简介2、邮箱地址189邮箱(SSL加密)公司邮箱(SSL加密)QQ邮箱(SSL加密)二、代码展示1、SMTP发送邮件构造邮件发送邮件添加邮件标题、收/发件人一、基本概念1、协议简介POP3收邮件。允许电子邮件客户端下载服务器上的邮件，但是在客户端的操作（如移动邮件、标记已读等），不会反馈到服务器上。IAMP收邮件。在电子邮件客户端收取的邮件仍然保留在服务器上，同时在客户端上的操作都会反馈到服务器上。SMTP发邮件。必须在提供了账户名和密码之后才可以登

2021-04-05 18:42:47 7591 3

原创 pymysql理解

pymysql详解一、基础二、对象1、连接对象2、游标对象本文主要讲解使用pymysql连接mariadb数据库的操作参考文档：pymysql官方文档一、基础** 安装** pip install PyMySQL** 导入** import pymysql二、对象1、连接对象创建方法：conn=pymysql.connect(host='XXXX',user='root',password='XXX',database='XXX',charset='utf8') 基本参数：

2021-04-02 16:00:43 239

原创 python爬虫之bs4

Tag对象name：标签名字attrs：标签属性has_attr：判断Tag是否包含属性contents：获取Tag的所有子节点，返回一个listchildren：获取Tag的所有子节点，返回一个生成器string：如果tag只有一个 NavigableString 类型子节点strings:如果tag中包含多个字符串get_text():如果只想得到tag中包含的文本内容,那么可以嗲用 get_text() 方法可以通过参数指定tag的文本内容的分隔符find_allfi

2020-05-31 16:24:27 522

原创 python爬虫之requests

sessionimport requestsfrom lxml import etreeurl = "http://www.renren.com/PLogin.do"headers={ 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'}data = { 'email':'1520

2020-05-30 16:55:31 159

原创 html之etree和xpath笔记

xpathXPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航实例路径表达式结果bookstore选取 bookstore 元素的所有子节点。/bookstore选取根元素 bookstore。注释：假如路径起始于正斜杠( / )，则此路径始终代表到某元素的绝对路径！bookstore/book选取属于 bookstore 的子元素的所有 book 元素。//book选取所有 book 子元素，而

2020-05-30 11:53:34 4370

原创 python爬虫之urllib

一、简介urllib包含了4个模块：request：它是最基本的http请求模块，用来模拟发送请求error：异常处理模块，如果出现错误可以捕获这些异常parse：一个工具模块，提供了许多URL处理方法，如：拆分、解析、合并等robotparser：主要用来识别网站的robots.txt文件，然后判断哪些网站可以爬二、request1、request.urlopen()urllib.request.urlopen(url,data=None,[timeout,],cafile=None,

2020-05-13 22:37:09 115

原创 shuffle流程简介

官方流程图：Shuffle是MapReduce处理流程中的一个核心过程，它的每一个处理步骤是分散在maptask和reducetask节点上完成的，整体来看，分为3个核心操作：1、分区partition2、排序sort3、合并combine详细流程：一、MAP一个切片对应一个Maptask1、分区（可参考：MapReduce切片、并行度、分区）在将map()函数处理后得到的（key,value）对写入到缓冲区之前，需要先进行分区操作，这样就能把map任务处理的结果发送给指定的reduce

2020-05-10 17:28:18 2999

原创 MapReduce切片、并行度、分区

一、切片一个job的map阶段并行度由客户端在提交Job是决定，而客户端对map阶段并行度的规划的基本逻辑为：将待处理数据执行逻辑切片（即按照一个特定切片大小，将待处理数据划分成逻辑上的多个split），然后每一个split分配一个mapTask并行实例处理；这段逻辑及形成的切片规划描述文件，由FileInputFormat实现类的getSplits()方法完成。切片大小的确认函数方法 p...

2020-05-02 23:51:29 416

原创 python调用hadoop

一、MRJobMrjob是一个编写MapReduce任务的开源Python框架，它实际上对Hadoop Streaming的命令行进行了封装，因此接粗不到Hadoop的数据流命令行，使我们可以更轻松、快速的编写MapReduce任务。Mrjob通过Python的yield机制将函数变成一个生成器，通过不断调用next()去实现key:value的初始化或运算操作。#!/usr/bin/pyt...

2020-05-01 23:42:41 1708

转载 HADOOP的四大机制

HADOOP的四大机制一、心跳机制1.1、namenode是怎么知道各个从节点的存活状态呢？1.2、namenode什么是时候断定datanode死了？二、安全模式2.1 元数据的组成2.2集群在启动的时候namenode需要做哪些事情2.3安全模式形成三、机架策略四、负载均衡一、心跳机制namenode是集群的老大，负责集群上任务的分工，如果要进行分工，则必须知道各个从节点的存活状态。1....

2020-04-25 23:56:34 405 1

weixin_41089778的博客