数据清洗
shiter
CSDN博客专家,人工智能与大数据领域优秀创作者,累计近500W人次访问。 熟悉自然语言处理(NLP)、大数据(Spark 、Elasticsearch)、数据分析(Scala,Python),计算机视觉(OpenCV、立体匹配)等领域的研发工作。世界500强,高级算法工程师, 曾参与并负责国家级大数据项目,负责大健康平台相关开发与管理工作,负责金融行业AI与大数据平台产品设计、开发与落地。编程不仅仅是技术,还是艺术!talk is cheap,show me the code!
展开
-
windows下python3 使用cx_Oracle,xlrd插件进行excel数据清洗录入
我们在做数据分析,清洗的过程中,很多时候会面对各种各样的数据源,要针对不同的数据源进行清洗,入库的工作。当然python这个语言,我比较喜欢,开发效率高,基本上怎么写都能运行,而且安装配置简单,基本上有网的环境pip install全部都搞定,没网的话,把wheel包考过来一行命令也就解决了。本篇博客就针对,在windows平台下使用python3(python2社区将要停止支持,使用3是大势所趋)原创 2017-04-16 00:23:09 · 4926 阅读 · 3 评论 -
大数据ETL实践探索(1)---- python 与oracle数据库导入导出
文章大纲原创 2018-12-09 01:21:01 · 3838 阅读 · 0 评论 -
大数据ETL实践探索(5)---- 大数据ETL利器之 pandas
文章大纲文件加载一些参数的解释索引的那些坑杂项jupyter notebook 显示所有行和列文件加载path = r'./data/ren_pd.csv'df_pifu = pd.read_csv(path,low_memory=False,dtype={'MBR_NO':np.str})一些参数的解释索引的那些坑杂项jupyter notebook 显示所有行和列pd.s...原创 2019-02-03 23:51:57 · 2520 阅读 · 2 评论 -
大数据处理实践探索 ---- 数据清洗的目的、方法
我们目前进入了一个大数据的时代。以我目前经常处理的医疗保健数据为例。随着时间的推移医疗保健数据的生成速度越来越快,预计到2020年将达到35 ZB(1ZB大约是10的9次方TB)。无论是出于患者护理、研究还是法律原因,能够经济高效、安全地管理这些数据对医疗保健提供者来说都越来越重要。医疗保健提供商必须能够摄取、存储和保护大量数据,包括临床、基因组、设备、财务、供应链和保险理赔等。本文尝试从数据 挖掘、分析的一般步骤入手,基于理论化的描述结合具体例子详细介绍挖掘分析建模之前数据处理的目的及方法论。原创 2019-10-03 00:44:57 · 5957 阅读 · 0 评论