2018年05月_威震四海

原创如何生成具有唯一性的uuid

Python使用UUID库生成唯一ID UUID是128位的全局唯一标识符，通常由32字节的字符串表示。它可以保证时间和空间的唯一性，也称为GUID，全称为： UUID —— Universally Unique IDentifier Python 中叫 UUID GUID —— Globally Unique IDenti...

2018-05-31 16:23:32 5001

原创 AttributeError: 'dict' object has no attribute 'iteritems'，AttributeError: 'dict' object has no attr

问题：AttributeError: 'dict' object has no attribute 'iteritems'原因：Python3.5中：iteritems变为items问题：AttributeError: 'dict' object has no attribute 'has_key'原因：Python3中：if item.has_key:改为if key in itemAttrib...

2018-05-30 16:19:09 3295

原创 Linux运维常用命令----持续更新

最近领导安排，客串了一段时间的运维，日常工作就是写脚本、测试、部署、服务器环境配置、数据流监控、脚本运行状况监控等我想说其实我还同时持续着我的爬虫工作，于是乎稍微总结一下运维这段时间常用的操作指令1、查看当前目录下所有文档的内容行数2、查看当前目录下所有文档的大小3、后台启动Python脚本输出日志到文件，查看日志文件4、...

2018-05-30 10:36:10 19895 5

原创 nohup后台启动Python脚本，log不刷新

=》nohup python3 xxxx.py &后台启动脚本tail -100f nohup.out无显示python的输出有缓冲，导致日志文件并不能够马上看到输出。-u参数，使得python不启用缓冲。所以修改命令即可：nohup python3 -u xxxx.py > nohup.out &...

2018-05-29 15:53:29 4727

原创 Linux下如何测试网速

在Linux下如何测量下载和上传的速度？这里用到一个Python工具speedtest，speedtest是一个用Python编写的轻量级Linux命令行工具，在Python2.4至3.4版本下均可运行。它基于Speedtest.net的基础架构来测量网络的上/下行速率。安装speedtest很简单——只需要下载其Python脚本文件。1、安装speedtest$ wget https://raw...

2018-05-29 15:33:38 11348

原创 Python插入数据到elasticsearch中

将一个文件中的内容逐条写入elasticsearch中，效率没有写hadoop高，跟kafka更没得比import timefrom elasticsearch import Elasticsearchfrom collections import OrderedDictstart_time = time.time()es = Elasticsearch(['localhost:920...

2018-05-25 15:07:01 11176 11

原创 pycharm设置自动导包

pycharm设置自动导包当拿着一个脚本在pycharm上运行时，经常会报错如No moudle named xxx；这是我们才知道：哦，原来少了个包，那么能不能在运行之前就一眼看出是否缺少依赖呢？这就用到了pycharm的自动导包功能了，默认为alt + enter 键组合当你按下这两个键时，如果跳出下拉菜单选项，说明缺少依赖，选定后会自动导包但是需要确保已经开启了此功能，方法如下：File→S...

2018-05-25 14:55:04 26490

原创 python 创建有序字典OrderedDict（）

python 有序字典废话少说，看代码1234567891011121314151617181920from collections import OrderdDictdict = OrderedDict()dic['a'] = 'A'dic['b'] = 'B'dic['c'] = 'C'print(dict)=>{'K1': 'V1', 'K2': 'V2', 'K3': 'V3'}...

2018-05-25 14:27:14 3394

原创 windows下安装nodejs

前面安装elasticsearch的时候，被要求安装nodejs（后来发现其实也可以不安装的），这里总结一下我安装nodejs的过程环境：windows 7nodejs : v8.11.21、下载安装包下载地址：https://nodejs.org/en/download/2、双击安装运行next自定义安装路径nextnextnextinstallfinish检验安装是否成功如果对您有帮助，记得给...

2018-05-24 19:42:01 1333

原创 Python操作ElasticSearch

Python操作ElasticSearch环境依赖：　　Python：3.6　　ES依赖包：elasticsearch 　　ElasticSearch：6.2.0　　操作系统：Windows 7　本文主要就ES基本的CRUD操作做以归纳整理，ES官方对Python的依赖支持有很多，eg：pyelasticsearch、ESClient、elasticutils、pyes、rawes、Surfiki...

2018-05-24 19:00:05 1648

原创 windows 下安装elasticsearch

windows 下安装elasticsearch1.下载请点此下载elasticsearch-5.5.02.配置Java环境下载 64位的jdk： jdk-8u-win-x64 或者32位的jdk： jdk-8u-win-x86 双击下载的jdk文件，按照提示安装 jdk 和 jre 即可。查看java是否正确安装：java -version1安装成功。3.解压解压elasticsearch到某个...

2018-05-24 14:58:57 1346 1

转载 Elasticsearch学习，请先看这一篇！

Elasticsearch学习，请先看这一篇！题记：Elasticsearch研究有一段时间了，现特将Elasticsearch相关核心知识、原理从初学者认知、学习的角度，从以下9个方面进行详细梳理。欢迎讨论……0. 带着问题上路——ES是如何产生的？（1）思考：大规模数据如何检索？如：当系统数据量上了10亿、100亿条的时候，我们在做系统架构的时候通常会从以下角度去考虑问题： 1）用什么数据库好...

2018-05-24 14:34:34 1404

原创 Python中os.mkdir()与os.makedirs()的区别及用法

os.makedir(path和os.makedirs(path)今天工作中一个脚本用到服务器文件同步本地磁盘，创建目录前需要判断是否存在这里有两个方法os.mkdir(path)和os.makedirs(path)首先说os.mkdir(path)，他的功能是一级一级的创建目录，前提是前面的目录已存在，如果不存在会报异常，比较麻烦，但是存在即有他的道理，当你的目录是根据文件名动态创建的时候，你会...

2018-05-24 10:54:40 45262 7

原创 ConfigParser读取配置文件异常问题

使用configparser来读取配置文件，部署到生产环境，抛出异常：configparser.MissingSectionHeaderError: File contains no section headers.详情如下图：发现配置文件中的[base]读出来之后变成了'\ufeff[base]\n'，前面和后面都被追加了一些字符，导致配置参数失效究其原因：都是windows搞的鬼，这里面具体什...

2018-05-21 16:39:03 4796

转载从腰椎间盘突出到坐骨神经痛，这个过程怎么度过与规避！

腰椎间盘突出症，为什么症状都集中在腿部腰椎间盘突出这个病，不是字面意思，腰的病，就是腰疼。腰疼在这个病里面是可有可无的。那必须有的是什么？必须有的就是腿疼，腿麻或运动障碍。大家都知道，我们的感觉，运动都是神经支配的，管腿的疼痛，冷热，酸胀等感觉是从腿经过腰，到大脑的。让腿脚运动的神经是从大脑经过腰到腿脚的。腰椎间盘突出症就是因为腰的椎间盘突出，压住了管下肢感觉运动的神经，所以只要诊断为椎间盘突出症...

2018-05-21 11:51:36 19070 1

转载搜狗词库scel格式转txt文本

由于项目中要用到词库，而下载的搜狗词库是.scel格式，所以就用python脚本将搜狗词库.scel格式文件转化为.txt格式文件。亲测可用！[python] view plain copyimport struct import sys import binascii import pdb try: reload(sys) sys.setdefaultencodi...

2018-05-19 11:01:53 4814

翻译 blob类型url的视频下载问题

blob下载问题的详细描述我想用src url blob:https%3A//www.youtube.com/23aea5c8-9ae2-40dc-9417-e675ea99b386下载视频，但是不知道应该怎么做。有没有下载这类视频的通用方法？推荐的解决方法我在Vimeo中找到了一个使用blob url下载视频的方法(读了这篇文章，我才知道做法)。我正在使用Google Chrome，具体步骤如下...

2018-05-18 17:56:55 63691 4

转载 Python绘制图形库turtle

关于绘制图形库turtle# 画布上，默认有一个坐标原点为画布中心的坐标轴(0,0)，默认"standard"模式坐标原点上有一只面朝x轴正方向小乌龟一：海龟箭头Turtle相关方法############################## 1.绘制的运动 ##############################a).移动和绘制# turtle....

2018-05-18 17:13:43 6986

翻译如何利用Python画一幅画（绘制图形库turtle）

使用python调用本地画图框，自动完成绘图图像内容，自己看吧哈哈#coding=utf-8import turtle as tt.pensize(4)t.hideturtle()t.colormode(255)t.color((255,155,192),"pink")t.setup(840,500)t.speed(10)# 鼻子t.pu()t.goto(-100,100...

2018-05-18 17:05:00 6958 3

原创 python上传文件到hadoop异常问题

使用库：pyhdfs调用方法：pyhdfs.HdfsClient(ip,port,user).copy_from_local()异常现象如下图：原因分析：可以看出，连接成功，但是上传失败，造成这种现象的原因是我这里连接的是name节点，端口50070，当调用copy_from_local（）时，name节点会主动去连接data节点进行数据读写操作，而data节点端口50075没有开启，造成data...

2018-05-18 16:18:36 2569 2

原创 python操作hadoop异常问题

使用库：pyhdfs调用方法：copy_from_local异常现象如下图：异常原因分析：1、主机、端口、用户信息不正确造成；2、服务端口没有开启造成

2018-05-18 16:10:22 1805

原创 scrapy运行报错问题

异常信息：info:crawled 100 pages(at 8 pages/min),scraped 1291 items (at 0 items/min)处理方案：1、看你的xpath到底能不能匹配到你要的元素啊，你可以试试用chrome的一个XPath helper插件2、你要请求的地址和allow_domain里面的冲突，从而被过滤掉。可以停用过滤功能。yield Request(url,...

2018-05-17 11:43:21 2262 1

原创 Linux下tree命令的安装与使用

Tree命令简介　　tree是一种递归目录列表命令，产生一个深度缩进列表文件，这是彩色的ALA dircolors如果ls_colors设置环境变量和输出是TTY。树已经被移植和报道以下操作系统下工作：Linux，FreeBSD，OS X操作系统，Solaris，HP UX，Cygwin，HP NonStop OS / 2。Tree命令安装　　1.下载安装包，地址：http://mama.inds...

2018-05-14 17:29:41 6996 6

原创 Python脚本消费kafka数据

kafka简介（摘自百度百科）一、简介：详见：https://blog.csdn.net/Beyond_F4/article/details/80310507二、安装详见博客：https://blog.csdn.net/beyond_f4/article/details/80095689 三、按照官网的样例，先跑一个应用1、生产者:from kafka...

2018-05-14 15:44:44 15630 5

原创 kafka简介

kafka简介简介：afka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模的网站中的所有动作流数据。这种动作（网页浏览，搜索和其他用户的行动）是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop的一样的日志数据和离线分析系统，但又要求实时处理的限制，这是一个可行的解决方案。Kafka的目的是通...

2018-05-14 15:43:29 1903

原创 Python脚本操作hadoop

公司最近业务用到了hadoop集群，为方便维护和迭代，选择了Python作为脚本语言，下面说一下如何使用Python连接hadoop集群，hadoop集群中有namenode和datanode，我们需要连接namenode我用的是Python3，和pyhdfs库（hdfs库也试过了，连不上，原因不明）import pyhdfsclient = pyhdfs.HdfsClient(host,use...

2018-05-12 12:08:01 2583

原创 python消费kafka关键点---offset

auto_offset_reset介绍我们先看看最新的官方文档说明：What to do when there is no initial offset in Kafka or if the current offset does not exist any more on the server (e.g. because that data has been deleted):earliest:...

2018-05-11 15:48:35 7707

Beyond_F4的博客