- 博客(9)
- 资源 (1)
- 收藏
- 关注
原创 LeetCode:11. Container With Most Water
这一题 是要求求容器的最大面积,其中高度由数组中的数字表示,长度为两个数的下标距离。这题,我是直接用的暴力法,超时了,借鉴了其他人的解题思路。采用类似快排算法的思路,进行从两侧开始扫描,我们知道快排能够明显降低时间,如果用暴力法,当给定一个很大的数组时,就会花费很长时间。class Solution: def maxArea(self, height): ...
2019-01-22 16:48:14 196
原创 Spark读取本地文件问题
Spark 读取本地文件问题网上给出的多是下面两种方案 解决方式1:让每个Worker节点的相应位置都有要读取的数据文件。 解决方式2:直接将数据文件上传到hdfs,达到数据共享。(强烈推荐,比格更高更专业) 不过多是将文件发到hdfs,明明记得可以读取本地文件,后来在林子雨老师厦门大学大数据实验室博客上找到解决办法:本地文件数据读写textFile ...
2019-01-14 18:51:00 13911 11
原创 解决Hadoop集群环境启动后Live Nodes只有一个的问题
网上搜了很多解决方案,针对我遇到的问题目前有效的解决方案如下:删除DataNode的所有资料,我的做法是删除hadoop下dfs目录和tmp目录【sudo rm -r dfs】,然后重新格式化 【hdfs namenode -format】再启动 【sbin/start-all.sh】master:界面 ...
2019-01-08 20:41:10 5545 2
原创 Pandas六、重命名和联合
读入数据import pandas as pdreviews = pd.read_csv("../input/wine-reviews/winemag-data-130k-v2.csv", index_col=0)1、有些列是名字需要我们重新命名,创建一个副本,将region_1列改名region,将region_2列改名locale。# 第一种 相当于把元组转成字典# re...
2019-01-06 15:40:25 467 3
原创 Pandas五、数据类型和丢失值初窥
读入数据:import pandas as pdreviews = pd.read_csv("winemag-data-130k-v2.csv", index_col=0)1、查看数据集中评分列的数据类型dtype = reviews.points.dtypedtype'''dtype('int64')'''2、创建一个Series,其数据来自评分(points)中...
2019-01-06 14:45:45 395 3
原创 Pandas四、Grouping(分组)和Sorting(排序)
读入要测试的文件。import pandas as pdreviews = pd.read_csv("winemag-data-130k-v2.csv", index_col=0)reviews.head()查看部分数据:1、找出数据集中最常见的。统计每个分组中指定列的数量。创建一个序列(Series),他的索引是数据集中的“taster_twitter_handle”...
2019-01-06 13:49:51 6394
原创 pandas三、函数操作、maps处理数据
本节讲述 如何调整数据成我们想要的样子1、求某一列数据的均值import pandas as pdpd.set_option("display.max_rows", 5)reviews = pd.read_csv("winemag-data-130k-v2.csv", index_col=0)median_points = reviews.points.median()# 8...
2019-01-04 18:13:16 567
原创 pandas二、索引、选择以及赋值
首先是检查是否数据import pandas as pdreviews = pd.read_csv("winemag-data-130k-v2.csv", index_col=0)reviews.head() country description designation points price province region_1 ...
2019-01-04 16:31:36 3975
原创 Pandas:1.创建、读和写操作
一、创建DataFrame1、创建表格DataFramefruits = pd.DataFrame([[30, 21]], columns=['Apples', 'Bananas'])效果: 2、再建一个不一样的DataFramefruit_sales = pd.Dat...
2019-01-04 15:14:00 318
jdk-1.8 linux版本 centos rpm安装版本
2019-03-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人