冒_冒-CSDN博客

原创 Hadoop集群文件上传及下载过程和hdfs各角色的作用

文件上传文件上传过程:客户端向namenode发送文件上传的请求namenode进行一系列的检查.权限.文件的父目录是否存在文件是否同名,检查通过则允许上传允许客户端上传客户端发送真正的文件上传的请求,请求包含一个重要信息,文件的长度和大小namenode根据文件的长度计算文件的切块的个数,获取副本的配置信息;返回副本的节点的信息的时候原则: 就近原则 ,客户端所在节点,同机架,不...

2019-04-12 17:45:51 775

原创大数据-Hadoop的四大机制

Hadoop四大机制1.心跳机制 ** 心跳的报告信息:datanode块信息,存活状态 ** 每三秒datanode向namenode发送心跳信息 ** 连续10次未收到心跳信息,namenode会向datanode发送验证信息,10分钟一次,两次未响应,则datanode可能宕机了,时间是:3*10+300*2 = 630s2.安全模式集群启动顺序:namenode -...

2019-04-12 16:11:46 280

原创 python面试排序类

一.将两个有序数组去重合并为一个新的有序数组def hebing(): a = [1,2,5,7,14,45,89] b = [3,5,8,9,23,45,67,101] i=0 j=0 m=0 c = [] while (i<len(a) and j<len(b)): if a[i]< b[j]:...

2019-03-01 14:14:15 194

原创 websocket爬虫

在爬取虚拟货币的交易信息时,为保证数据的及时性,网站通常会使用websocket协议.此时我们的爬虫也需要使用websocket来处理这类问题.websocket的优点是在于:1.可以节省每次请求的headers,一次请求可以节省几十个字节;2.服务器可以自主向客户端传递数据,不用像传统的轮询的方式一样.爬取neotracker的货币的数据并存入数据库import websocket...

2018-12-24 16:51:58 848

原创爬虫总结

爬虫总结(一)scrapy… setting.pyROBOTSTXT_OBEY = False , 拒绝接受默认协议CONCURRENT_REQUESTS = 32 , 开启的线程数量DOWNLOAD_DELAY = 0 , 等待时间CONCURRENT_REQUESTS_PER_DOMAIN = 32 ,CONCURRENT_REQUESTS_PER_IP = 32 ,sc...

2018-11-27 17:09:52 154

原创进程的queue和process

开启进程进程中使用队列– 进程彼此之间互相隔离，要实现进程间通信（IPC），multiprocessing模块支持两种形式：队列和管道，这两种方式都是使用消息传递的。Queue([maxsize]):创建共享的进程队列，Queue是多进程安全的队列，可以使用Queue实现多进程之间的数据传递。q.put方法用以插入数据到队列中。 q.get方法可以从队列读取并且删除一个元素。...

2018-08-21 23:07:28 607

原创使用selenium进行豆瓣登录操作,验证码打码

from selenium import webdriverimport timeimport requestsfrom lxml import etreeimport base64# 操作浏览器driver = webdriver.Chrome()url = 'https://accounts.douban.com/login?alias=&redir=https%3A%...

2018-08-21 22:41:13 501

原创爬取代理信息,用multiprocessing多进程验证代理是否可用

获取66ip的代理信息创建进程池异步检测代理是否可用import requestsfrom lxml import etreeimport multiprocessingimport time# 验证ip是否可以使用def check_proxy(proxy): try: url = 'https://www.baidu.com/s?wd=ip' ...

2018-08-21 22:37:56 230

原创我爱我家房源信息爬取

我爱我家房源信息获取无特殊爬取需求import requestsfrom lxml import etreefrom mysql_link import mysql_connectdef get_5i5j(count): mysql_ = mysql_connect() headers = { 'Cookie': '_Jo0OQK=6B2EFB...

2018-08-20 08:32:14 1083

原创 python连接mysql

import pymysqlclass mysql_connect(object): # 初始化的构造函数 def __init__(self): self.db = pymysql.connect(host='127.0.0.1',user='root',password='yao123',port=3306,database='pachong',charse...

2018-08-20 08:27:50 193

原创 tencnet社招信息抓取

从mysql_link导入数据库链接from lxml import etreefrom urllib import parseimport requestsimport jsonfrom mysql_link import mysql_connectdef get_detail(detail_url,mysql): user_agent = 'Mozilla/5.0 (...

2018-08-20 08:26:54 291

原创今日头条页面图片获取

今日头条页面图片获取分为获取目录下的文件路径以及具体目录下的多张图片import reimport requestsimport json,osfrom urllib import requestdef get_detail(url,title): headers = { 'User-Agent':'Mozilla/5.0 (Windows NTr ...

2018-08-16 22:48:04 1561

原创 requests应用,代理

对于requests包的调用import requestsurl = 'http://www.xicidaili.com'proxy = { 'http':'http://root:Yao+ql2011@101.200.50.18:8118'}user_agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537....

2018-08-15 21:30:55 173

原创雪球网爬取数据并存入数据库

创建数据库连接from urllib import requestimport jsonimport pymysqlclass mysql_connect(object): # 初始化的构造函数 def __init__(self): self.db = pymysql.connect(host='127.0.0.1',user='root',pas...

2018-08-15 21:28:55 1281 1

原创人人网cookie

人人的cookie的存储from http import cookiejarfrom urllib import request,parsefrom interface_all import save_cookieimport jsonurl = 'http://www.renren.com/ajaxLogin/login?1=1&uniqueTimestamp=201872...

2018-08-14 21:11:46 169

原创爬虫cookie类的封装

类的封装from urllib import request,parseimport jsonfrom http import cookiejarclass save_cookie(object): # 创建类变量opener def __init__(self): cookie = cookiejar.CookieJar() hand...

2018-08-14 21:09:56 231

原创 python爬虫有道词典翻译

有道词典的翻译应用(post请求方式)from urllib import requestimport time,randomfrom 爬虫.day01.interface_all import postimport json# md5加密def md5_object(st): import hashlib md5_obj = hashlib.md5() md...

2018-08-14 20:47:08 302

原创爬虫初阶一:get和post请求

get和post请求from urllib import request,parseimport jsondef get(url,headers = None): return urlrequest(url,headers=headers)def post(url,data = None,headers = None): return urlrequest(url,...

2018-08-13 20:25:33 191

原创 cookie,session区别和联系

1、cookie数据存放在客户的浏览器上，session数据放在服务器上。2、cookie不是很安全，别人可以分析存放在本地的cookie并进行cookie欺骗，考虑到安全应当使用session。3、session会在一定时间内保存在服务器上。当访问增多，会比较占用你服务器的性能，考虑到减轻服务器性能方面，应当使用cookie。4、单个cookie保存的数据不能超过4K，很多浏览器都限...

2018-08-13 20:22:09 121

qq_41847171的博客