自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 python邮件管理

python邮件管理一、基本概念1、协议简介2、邮箱地址189邮箱(SSL加密)公司邮箱(SSL加密)QQ邮箱(SSL加密)二、代码展示1、SMTP发送邮件构造邮件发送邮件添加邮件标题、收/发件人一、基本概念1、协议简介POP3收邮件。允许电子邮件客户端下载服务器上的邮件,但是在客户端的操作(如移动邮件、标记已读等),不会反馈到服务器上。IAMP收邮件。在电子邮件客户端收取的邮件仍然保留在服务器上,同时在客户端上的操作都会反馈到服务器上。SMTP发邮件。必须在提供了账户名和密码之后才可以登

2021-04-05 18:42:47 7393 3

原创 pymysql理解

pymysql详解一、基础二、对象1、连接对象2、游标对象本文主要讲解使用pymysql连接mariadb数据库的操作参考文档:pymysql官方文档一、基础** 安装** pip install PyMySQL** 导入** import pymysql二、对象1、连接对象创建方法:conn=pymysql.connect(host='XXXX',user='root',password='XXX',database='XXX',charset='utf8') 基本参数:

2021-04-02 16:00:43 227

原创 python爬虫之bs4

Tag对象name:标签名字attrs:标签属性has_attr:判断Tag是否包含属性contents:获取Tag的所有子节点,返回一个listchildren:获取Tag的所有子节点,返回一个生成器string:如果tag只有一个 NavigableString 类型子节点strings:如果tag中包含多个字符串get_text():如果只想得到tag中包含的文本内容,那么可以嗲用 get_text() 方法可以通过参数指定tag的文本内容的分隔符find_allfi

2020-05-31 16:24:27 491

原创 python爬虫之requests

sessionimport requestsfrom lxml import etreeurl = "http://www.renren.com/PLogin.do"headers={ 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'}data = { 'email':'1520

2020-05-30 16:55:31 153

原创 html之etree和xpath笔记

xpathXPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航实例路径表达式结果bookstore选取 bookstore 元素的所有子节点。/bookstore选取根元素 bookstore。注释:假如路径起始于正斜杠( / ),则此路径始终代表到某元素的绝对路径!bookstore/book选取属于 bookstore 的子元素的所有 book 元素。//book选取所有 book 子元素,而

2020-05-30 11:53:34 4345

原创 python爬虫之urllib

一、简介urllib包含了4个模块:request:它是最基本的http请求模块,用来模拟发送请求error:异常处理模块,如果出现错误可以捕获这些异常parse:一个工具模块,提供了许多URL处理方法,如:拆分、解析、合并等robotparser:主要用来识别网站的robots.txt文件,然后判断哪些网站可以爬二、request1、request.urlopen()urllib.request.urlopen(url,data=None,[timeout,],cafile=None,

2020-05-13 22:37:09 108

原创 shuffle流程简介

官方流程图:Shuffle是MapReduce处理流程中的一个核心过程,它的每一个处理步骤是分散在maptask和reducetask节点上完成的,整体来看,分为3个核心操作:1、分区partition2、排序sort3、合并combine详细流程:一、MAP一个切片对应一个Maptask1、分区(可参考:MapReduce切片、并行度、分区)在将map()函数处理后得到的(key,value)对写入到缓冲区之前,需要先进行分区操作,这样就能把map任务处理的结果发送给指定的reduce

2020-05-10 17:28:18 2865

原创 MapReduce切片、并行度、分区

一、切片一个job的map阶段并行度由客户端在提交Job是决定,而客户端对map阶段并行度的规划的基本逻辑为:将待处理数据执行逻辑切片(即按照一个特定切片大小,将待处理数据划分成逻辑上的多个split),然后每一个split分配一个mapTask并行实例处理;这段逻辑及形成的切片规划描述文件,由FileInputFormat实现类的getSplits()方法完成。切片大小的确认函数方法 p...

2020-05-02 23:51:29 382

原创 python调用hadoop

一、MRJobMrjob是一个编写MapReduce任务的开源Python框架,它实际上对Hadoop Streaming的命令行进行了封装,因此接粗不到Hadoop的数据流命令行,使我们可以更轻松、快速的编写MapReduce任务。Mrjob通过Python的yield机制将函数变成一个生成器,通过不断调用next()去实现key:value的初始化或运算操作。#!/usr/bin/pyt...

2020-05-01 23:42:41 1694

转载 HADOOP的四大机制

HADOOP的四大机制一、心跳机制1.1、namenode是怎么知道各个从节点的存活状态呢?1.2、namenode什么是时候断定datanode死了?二、安全模式2.1 元数据的组成2.2集群在启动的时候namenode需要做哪些事情2.3安全模式形成三、机架策略四、负载均衡一、心跳机制namenode是集群的老大,负责集群上任务的分工,如果要进行分工,则必须知道各个从节点的存活状态。1....

2020-04-25 23:56:34 385 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除