- 博客(19)
- 收藏
- 关注
原创 Hadoop集群文件上传及下载过程和hdfs各角色的作用
文件上传文件上传过程:客户端向namenode发送文件上传的请求namenode进行一系列的检查.权限.文件的父目录是否存在 文件是否同名,检查通过则允许上传允许客户端上传客户端发送真正的文件上传的请求,请求包含一个重要信息,文件的长度和大小namenode根据文件的长度计算文件的切块的个数,获取副本的配置信息;返回副本的节点的信息的时候原则: 就近原则 ,客户端所在节点,同机架,不...
2019-04-12 17:45:51 775
原创 大数据-Hadoop的四大机制
Hadoop四大机制1.心跳机制 ** 心跳的报告信息:datanode块信息,存活状态 ** 每三秒datanode向namenode发送心跳信息 ** 连续10次未收到心跳信息,namenode会向datanode发送验证信息,10分钟一次,两次未响应,则datanode可能宕机了,时间是:3*10+300*2 = 630s2.安全模式集群启动顺序:namenode -...
2019-04-12 16:11:46 280
原创 python面试排序类
一.将两个有序数组去重合并为一个新的有序数组def hebing(): a = [1,2,5,7,14,45,89] b = [3,5,8,9,23,45,67,101] i=0 j=0 m=0 c = [] while (i<len(a) and j<len(b)): if a[i]< b[j]:...
2019-03-01 14:14:15 194
原创 websocket爬虫
在爬取虚拟货币的交易信息时,为保证数据的及时性,网站通常会使用websocket协议.此时我们的爬虫也需要使用websocket来处理这类问题.websocket的优点是在于:1.可以节省每次请求的headers,一次请求可以节省几十个字节;2.服务器可以自主向客户端传递数据,不用像传统的轮询的方式一样.爬取neotracker的货币的数据并存入数据库import websocket...
2018-12-24 16:51:58 848
原创 爬虫总结
爬虫总结(一)scrapy… setting.pyROBOTSTXT_OBEY = False , 拒绝接受默认协议CONCURRENT_REQUESTS = 32 , 开启的线程数量DOWNLOAD_DELAY = 0 , 等待时间CONCURRENT_REQUESTS_PER_DOMAIN = 32 ,CONCURRENT_REQUESTS_PER_IP = 32 ,sc...
2018-11-27 17:09:52 154
原创 进程的queue和process
开启进程 进程中使用队列– 进程彼此之间互相隔离,要实现进程间通信(IPC),multiprocessing模块支持两种形式:队列和管道,这两种方式都是使用消息传递的。Queue([maxsize]):创建共享的进程队列,Queue是多进程安全的队列,可以使用Queue实现多进程之间的数据传递。q.put方法用以插入数据到队列中。 q.get方法可以从队列读取并且删除一个元素。...
2018-08-21 23:07:28 607
原创 使用selenium进行豆瓣登录操作,验证码打码
from selenium import webdriverimport timeimport requestsfrom lxml import etreeimport base64# 操作浏览器driver = webdriver.Chrome()url = 'https://accounts.douban.com/login?alias=&redir=https%3A%...
2018-08-21 22:41:13 501
原创 爬取代理信息,用multiprocessing多进程验证代理是否可用
获取66ip的代理信息创建进程池异步检测代理是否可用import requestsfrom lxml import etreeimport multiprocessingimport time# 验证ip是否可以使用def check_proxy(proxy): try: url = 'https://www.baidu.com/s?wd=ip' ...
2018-08-21 22:37:56 230
原创 我爱我家房源信息爬取
我爱我家房源信息获取无特殊爬取需求import requestsfrom lxml import etreefrom mysql_link import mysql_connectdef get_5i5j(count): mysql_ = mysql_connect() headers = { 'Cookie': '_Jo0OQK=6B2EFB...
2018-08-20 08:32:14 1083
原创 python连接mysql
import pymysqlclass mysql_connect(object): # 初始化的构造函数 def __init__(self): self.db = pymysql.connect(host='127.0.0.1',user='root',password='yao123',port=3306,database='pachong',charse...
2018-08-20 08:27:50 193
原创 tencnet社招信息抓取
从mysql_link导入数据库链接from lxml import etreefrom urllib import parseimport requestsimport jsonfrom mysql_link import mysql_connectdef get_detail(detail_url,mysql): user_agent = 'Mozilla/5.0 (...
2018-08-20 08:26:54 291
原创 今日头条页面图片获取
今日头条页面图片获取分为获取目录下的文件路径以及具体目录下的多张图片import reimport requestsimport json,osfrom urllib import requestdef get_detail(url,title): headers = { 'User-Agent':'Mozilla/5.0 (Windows NTr ...
2018-08-16 22:48:04 1561
原创 requests应用,代理
对于requests包的调用import requestsurl = 'http://www.xicidaili.com'proxy = { 'http':'http://root:Yao+ql2011@101.200.50.18:8118'}user_agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537....
2018-08-15 21:30:55 173
原创 雪球网爬取数据并存入数据库
创建数据库连接from urllib import requestimport jsonimport pymysqlclass mysql_connect(object): # 初始化的构造函数 def __init__(self): self.db = pymysql.connect(host='127.0.0.1',user='root',pas...
2018-08-15 21:28:55 1281 1
原创 人人网cookie
人人的cookie的存储from http import cookiejarfrom urllib import request,parsefrom interface_all import save_cookieimport jsonurl = 'http://www.renren.com/ajaxLogin/login?1=1&uniqueTimestamp=201872...
2018-08-14 21:11:46 169
原创 爬虫cookie类的封装
类的封装from urllib import request,parseimport jsonfrom http import cookiejarclass save_cookie(object): # 创建类变量opener def __init__(self): cookie = cookiejar.CookieJar() hand...
2018-08-14 21:09:56 231
原创 python爬虫有道词典翻译
有道词典的翻译应用(post请求方式)from urllib import requestimport time,randomfrom 爬虫.day01.interface_all import postimport json# md5加密def md5_object(st): import hashlib md5_obj = hashlib.md5() md...
2018-08-14 20:47:08 302
原创 爬虫初阶一:get和post请求
get和post请求from urllib import request,parseimport jsondef get(url,headers = None): return urlrequest(url,headers=headers)def post(url,data = None,headers = None): return urlrequest(url,...
2018-08-13 20:25:33 191
原创 cookie,session区别和联系
1、cookie数据存放在客户的浏览器上,session数据放在服务器上。2、cookie不是很安全,别人可以分析存放在本地的cookie并进行cookie欺骗,考虑到安全应当使用session。3、session会在一定时间内保存在服务器上。当访问增多,会比较占用你服务器的性能,考虑到减轻服务器性能方面,应当使用cookie。4、单个cookie保存的数据不能超过4K,很多浏览器都限...
2018-08-13 20:22:09 121
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人