自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 使用AWS的EC2部署sha** socks

记录一下使用AWS搭VPN的一个小问题,别的都很简单,就在部署ss的时候碰到个问题,一开始通过镜像部署ss,然而由于不知名的问题,ss服务起不来。最终是通过pip直接安装ss,成功了。...

2019-03-22 10:19:56 1522

原创 spark sql 报错:java.lang.IndexOutOfBoundsException: toIndex = 5

字面意思就是数组下标超了,这个越界的原因是:spark dataframe在写数据到hadoop的时候,在存储文件中把分区字段也写进去了,正确的是分区字段不能写到文件中,而是作为文件目录。以下是错误的代码:case class myrow(pin:String, tag:String, dt:String)rdd.map(x=>myrow(x._1,x._2,yesterday)...

2019-03-15 10:39:32 5364 1

原创 HDFS的文件系统

HDFS的文件系统与本地的文件系统是两个概念,可以认为hdfs文件系统是一层抽象。在hadoop指令中,可以通过路径的开头添加" hdfs:// "和“ file:// ”来访问hdfs系统或本地系统,也可以不添加,则是以配置文件中的设置为默认值。参考:http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common

2017-07-23 14:37:29 345

原创 pandas 的groupby函数

从pandas的说明文档中大概可以理解到:一个完整的 groupby 过程可以包括:splitting, applying, transform 三部分。groupby() 返回的是一个带划分信息的GroupBY对象,此时没有实施具体的切分等操作(如果后续的apply没有必要的话,会尽可能的不进行修改操作)。例子:df.groupby( 'column1' )  将df按照 colum

2017-06-27 11:13:32 1083

原创 使用selenium抓取网页内容

关于适用selenium抓文档的一个简单记录,以百度文库为例。selenium的原理大概是:利用javascript语句与浏览器驱动交互,从而控制浏览器操作网页的行为。而使用selenium实现爬虫一般是因为网页是动态加载的,目标内容需要经过一定操作才能在元素审查中出现。以百库文库为例(https://wenku.baidu.com/view/217d303c76eeaeaad0f33075.

2017-06-17 16:43:34 9852

原创 pandas Dataframe操作笔记

1、选择 选择列:选择一列: df['列名' ]  得到series对象,选择多列: df.iloc[ x1:x2 , y1:y2 ] x为行下标,y为列下标。[ :, y1:y2] 得到y1列到y2列所有的值,为dataframe对象。选择行:df [ 1:8] 得到第1到7行 ,得到dataframe对象 index 为原来的 columns 名

2017-06-06 14:28:45 529

原创 对特征进行稀疏编码

sklearn的DictVectorizer,multilabelBinarizer

2017-06-04 17:08:01 1165

原创 Linux的文件系统与路径表示

"."表示当前目录,“..”表示当前目录的父目录,“/”表示根目录。在python程序中,在不同系统下要注意路径的写法。

2017-06-03 20:20:51 972

转载 数据降维PCA

PCA的算法步骤:设有m条n维数据。 1)将原始数据按列组成n行m列矩阵X 2)将X的每一行(代表一个属性字段)进行零均值化,即减去这一行的均值 3)求出协方差矩阵C 4)求出协方差矩阵的特征值及对应的特征向量 5)将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵P 6)Y=PX即为降维到k维后的数据 协方差公式: 最终的结果是保留维度中蕴含信息量最多的k个维度(可

2017-06-03 16:05:08 552

原创 ubuntu软件安装

两种方式:apt-get 和 dpkg, 一帮用apt,apt是软件管理工具,在安装某个软件之前,会自动检查现有的软件,能够发现依赖关系,然后再从线上下载安装包(.deb,ubuntu是debian系的linux系统,其安装包后缀是.deb)。    dpkg则是直接按装软件包,跳过系统内软件检查的步骤,所以可能会重复安装等。

2017-05-23 09:44:00 306

原创 安装pywin32 错误提示3.6找不到注册表信息

Python version 3.6 required, which was not found in the registry.开始的时候直接把local_machine里的注册信息添加到current_user中,但是还是没用。后来通过注册表中直接写入python的安装路径才管用。脚本代码:http://www.mamicode.com/info-detail-1300944.html

2017-02-17 17:24:48 5143 3

原创 USB installer 无法找到iso文件

郁闷。。。最后上网搜了半天,才发现iso文件名必须符合installer的格式,比方说 我要装ubuntu系统,那么iso文件要改成ubuntu*desktop*.iso。*表示间隔的任意字符

2016-12-08 20:35:40 927

原创 oracle 11g数据库的基础概念

oracle毕竟是大型的商用数据库,比起Mysql真的是复杂多了。为了查看医院给的数据(.dmp),不得已要装一个Oracle。。。开始图快,装了一个11g的快捷版,结果太简洁,对各种概念一点认识都没有,所以又重新装了正式版。下面就记录下目前理解的Oracle的一些概念。1、数据库实例数据库实例是一系列后台进程的组合用于操作数据库。在安装的时候,就会要求创建一个实例,一般是orcl。不

2016-07-04 19:32:02 364

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除