自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 python脚本判断文件字符集参数的选择

常常在处理文件时,会出现错误如下:UnicodeDecodeError: 'utf-8' codec can't decode byte 0xea in position 626: illegal multibyte sequence或者其它数据编码出现的报错,比如:UnicodeDecodeError: 'gb2312' codec can't decode byte 0xea ...

2019-04-23 16:21:36 529

原创 正则表达式汇总(笔记)

正则表达式的用途场景有搜索和替换。正则表达式是一些用来匹配和处理文本的字符串。清单如下:*本文不限语言,各编译语言略有差异。单个字符列表 .(英文句号) 可以匹配任何一个单一的字符 \ 元字符。表示“这个字符由特殊含义,而不是字符本身含义”。举例(\.对.进行转义,表示.本身) - (连字符)在字符集合之内,作为一个特殊的元字符。字符集合之外,是一个普通字符,等于...

2019-04-22 15:57:15 197

原创 scala报错:java.lang.UnsupportedOperationException: empty.max

println(it.max)println(it.max)在scala编程的时候,遇到如上问题,报错为:java.lang.UnsupportedOperationException: empty.max查阅得知,scala使用Iterator的min和max方法时,迭代器遍历查到到最大和最小元素,但是同一个迭代器只能使用一次,所以当第二次调用同一个方法的时候(或连续调用max...

2018-11-29 16:10:45 4476

转载 转载:hive 的四种排序

原文章地址:https://blog.csdn.net/do_what_you_can_do/article/details/53192071对自己目前学习很有帮助的内容order byorder by 会对输入做全局排序,因此只有一个reducer(多个reducer无法保证全局有序)只有一个reducer,会导致当输入规模较大时,需要较长的计算时间。set hive.mapre...

2018-07-31 16:39:24 463

原创 python 的venv使用注意事项

在Windows下运行python的venv环境,必须事先安装好python环境。没有安装的话,激活venv(venv\Scripts\activate)没有问题,但是没法运行python文件。 python3.5下编译的venv可以运行在python2.7的环境。 从其它地方拷贝过来的工程因为工程路径发生改变,需要做修改,需要修改venv\Scripts下的Activate和activa...

2018-07-29 13:02:00 11741

原创 hadoop :1130-host ... is not allowed to connect to this MySql server

windows 使用 Navicat for MySql查看Hive数据时无法连接这是由于mysql数据库的进入mysql:mysql -uroot -proot执行命令:#( *.*:所有库下的所有表 %:任何IP地址或主机都可以连接)mysql>GRANT ALL PRIVILEGES ON *.* TO 'root'@'%' IDENTIFIED BY...

2018-07-26 10:09:21 256

原创 Hadoop下的mysql rpm版安装

hadoop 2.6.4 ,系统是centos 6.4首先查看系统位数是32位还是64位:(位数没确定好,后面都是白费)getconf LONG_BIT然后下载对应的mysql版本号:官网下载进入后下拉>选择版本、系统、位数,下载:下载后>放到自己想放的位置。 [hadoop@hadoop mysql]$ ll总用量 22696-rw-rw-r-- ...

2018-07-26 09:39:19 178

原创 hadoop 启动hive报错:Found class jline.Terminal, but interface was expected

报错截图如下:java.lang.IncompatibleClassChangeError: Found class jline.Terminal, but interface was expected at jline.TerminalFactory.create(TerminalFactory.java:101) at jline.TerminalFact...

2018-07-26 09:18:13 248

原创 Hadoopb 设置时间同步报错:name server cannot be used, reason: Temporary failure in name resolution

当我在Hadoop2.6.4集群上设置时间同步是,发生了以下错误:输入为:# /usr/sbin/ntpdate cn.pool.ntp.org错误为:name server cannot be used, reason: Temporary failure in name resolution解决办法:# sudo vi /etc/resolv.conf ...

2018-07-23 17:38:00 4107

原创 hadoop报错:org.apache.hadoop.yarn.exceptions.YarnException: Unauthorized request to start container.

当我在hadoop2.6.4上运行MR程序时,发生了如下错误:org.apache.hadoop.yarn.exceptions.YarnException: Unauthorized request to start container.内容:18/07/23 10:49:30 INFO mapreduce.Job: Task Id : attempt_1532301779475_...

2018-07-23 11:33:28 2599

原创 Python 爬虫 Urllib2库的变更

urllib2 的一些函数在更新之后,调用发生了变化,改为放入到urllib.request的子库当中:Previous Replacement Urllib2.Urlopen() urllib.request.urlopen() Urllib2.Request() urllib.request.Request()  ...

2018-07-21 15:47:55 145

原创 python-Pandas sorting API更新

当阅读《利用Python进行数据分析》,原书中sort API的调用,因为Python3的缘故发生了更改:查阅官方文档:      The API of sorting is changed, things becaome cleaner and more pleasant.      To sort by the values, both Series.sort() and Seri...

2018-07-21 15:40:00 136

原创 Python pandas.io.data 模块迁移

The pandas.io.data module is moved to a separate package.As follow:old:import pandas.io.datanew:import pandas_datareader.data as web 

2018-07-21 15:30:56 390

转载 Python包的相对导入时出现错误的解决方法

  在练习Python中package的相对导入时,即from . import XXX  或者 from .. import XXX  时会遇到这样两个错误:SystemError: Parent module ''not loaded, cannot perform relative import  和ValueError: attempted relative i...

2018-07-21 15:19:44 3961 1

原创 python2.7 报错 Input 'split_dim' of 'Split' Op has type float32 that does not match expected type of

原因分析:Tensorflow更新后,tf.split参数做调整。tf.split(0, n_steps, x) 更新为:tf.split(x, n_steps, 0) 位置做调整即可。

2018-05-22 17:33:52 2119

原创 python3 Categorical对象更新

在用pandas中cut对数据进行操作时发现,原《利用python进行数据分析》书中使用的Categorical对象属性有误,书中使用的Categorical对象的lables属性和levels属性已被DEPRECATED,变成codes和categories,在此做记!Categorical.labes--->Categorical.codesCategorical.levels---&g...

2018-04-09 22:22:39 1057 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除