- 博客(5)
- 资源 (6)
- 问答 (2)
- 收藏
- 关注
原创 python选取特定列——pandas的iloc和loc以及icol使用(列切片及行切片)
假设df是一个dataframe,列名为A B C D具体如下:A B C D0 ss 小红 81 aa 小明 d4 f f6 ak 小紫 7dataframe里的属性不是指定的,空值默认为NA。一、选取标签为A和C的列,并且选完的对象类型还是dataframedf = df.loc[...
2017-03-14 19:14:19 239169 3
原创 python连接数据库——create_engine和conn.cursor
python连接数据的方法:一种是导入sqlalchemy包,另一种是导入psycopg2包。具体用法如下(此处以postgre数据库举例)
2017-03-14 18:44:39 23365 6
原创 (3)hadoop学习——namenode的fsimage与editlog详解
Namenode主要维护两个文件,一个是fsimage,一个是editlog。fsimage保存了最新的元数据检查点,包含了整个HDFS文件系统的所有目录和文件的信息。对于文件来说包括了数据块描述信息、修改时间、访问时间等;对于目录来说包括修改时间、访问权限控制信息(目录所属用户,所在组)等。
2017-03-10 14:15:21 15839 1
原创 (2)hadoop学习——hdfs架构详解
Hadoop整体架构架构: 1. 底层——存储层,文件系统HDFS 2. 中间层——资源及数据管理层,YARN以及Sentry等 3. 上层——MapReduce、Impala、Spark等计算引擎 4. 顶层——基于MapReduce、Spark等计算引擎的高级封装及工具,如Hive、Pig、Mahout等
2017-03-10 11:18:44 2175
原创 (1)hadoop学习——hadoop的前世今生
事物存在必然有它的意义,hadoop的发展可以说是必然的趋势。当数据进入爆发式增长的时代,摩尔定律变得越来越不适用,原有的存储方式和计算方式已经跟不上处理的节奏了。原有的对应方式:加大磁盘空间(1T到100T?),加强cpu核心数(现在已经是8核,还能大到100核不成?计算机发热也是个问题)所以,谷歌的gfs和mp在众人的期盼下登场了(03和04年发布了两篇论文)。
2017-03-10 09:51:06 1775 2
waffles工具
2016-04-07
SVDFeature
2016-04-07
jieba分词的停用此表,为什么对英文不起作用?
2017-06-13
关于lenskit 跑的时候出了点问题
2016-01-19
TA创建的收藏夹 TA关注的收藏夹
TA关注的人