- 博客(8)
- 收藏
- 关注
原创 用Python脚本解决Linux上MapReduce输出结果中的中文乱码问题
问题介绍Windows上跑出的结果中的中文显示没有问题,但是在Linux上由于编译环境问题却是中文乱码。解决方案利用Python脚本,快速完成编码转换。但是查找资料的过程比较艰辛,尝试了很多种办法都没能成功,最终用pydoop包对HDF上的MapReduce结果进行操作,解决问题。import pydoop.hdfs as hdfsimport chardetfor in...
2018-06-05 16:36:31 755
原创 Python高级数据处理与可视化(六)---学科应用
学科应用学科应用理工类应用简单的三角函数计算一组数据的傅立叶变换Biopython人文社科类应用古腾堡项目就职演说语料库理工类应用简单的三角函数计算#Filename: mathA.pyimport numpy as npimport pylab as plx = np.linspace(-np.pi,np.pi,256) #linspace->arrays = np.s
2017-02-25 01:25:29 1199
原创 Python高级数据处理与可视化(五)---数据存取
数据存取CSV格式数据存取CSV(Comma-Separated Values),CSV文件默认用EXCEL打开,它可以以纯文本形式存储表格数据,每条记录的数据之间,用逗号来分隔,一目了然。df.to_csv('stockIBM.csv') #DataFrame.to_csv() 运用read_csv(),我们从文件中获取数据,比之前从内存中获取数据来的简单得多。result = pd.r
2017-02-24 23:27:24 877
原创 Python高级数据处理与可视化(四)---- Pandas作图
Pandas作图Pandas官方手册Pandas作图Pandas绘图Pandas控制图像形式Pandas控制图像属性Pandas绘图 Pandas通过整合Matplotlib的相关功能,可以实现基于Series和Dataframe的某些绘图功能。针对这两种类型的数据,Pandas作图常常比pylab和pyplot这两个模块更方便。(二)中Cocacola公司实例的作图更改plt.plot
2017-02-24 22:55:57 6663
原创 Python高级数据处理与可视化(三)---- Matplotlib图像属性控制
Matplotlib图像属性控制Matplotlib图像属性控制色彩和样式文字其他属性子图subplotsaxes色彩和样式通过help(plt.plot)查看属性plt.plot(listKOIndex,listKO,'b-') #蓝色实线plt.plot(listKOIndex,listKO,'g--') #绿色虚线plt.plot(listKOIndex,listKO
2017-02-24 00:23:14 1210
原创 Python高级数据处理与可视化(一)---- 聚类分析
聚类分析聚类分析实例1实例2函数用法聚类分析(cluster analysis):以相似性为基础把相似的对象通过静态分类的方法分成不同的组别或更多的子集。特性:基于相似性,有多个聚类中心。Kmeans算法:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。实例1from numpy import vstack from
2017-02-23 16:27:10 10911 1
原创 Python高级数据处理与可视化(二)---Matplotlib绘图基础
Matplotlib绘图基础Matplotlib绘图基础最著名Python绘图库主要用于二维绘图心形图折线散点柱状图实例1实例2定义列表代码块最著名Python绘图库,主要用于二维绘图画图质量高方便快捷的绘图模块绘图API—–pyplot模块 工作方式类似Matlab 集成库—–pylab模块(包含NumPy和pyplot中的常用函数) 偏重快
2017-02-23 16:13:46 4329
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人