大数据
文章平均质量分 85
hawkzy
这个作者很懒,什么都没留下…
展开
-
Windows10下配置大数据开发环境(1) - 安装Hadoop
一 准备工作1. 安装JDK https://www.oracle.com/technetwork/java/javase/downloads/index.html如果安装的Hadoop是3.1.1版本,应选择jdk1.8以上版本2. 下载HADOOP https://hadoop.apache.org/releases.html3. 搜索HADOOP在Windows环境需要的工具...原创 2018-11-08 20:35:28 · 7001 阅读 · 8 评论 -
利用pandas.DataFrame.isna方法做替换(很棒的技巧)
应用背景data是一个pandas.DataFrame数据对象,是从mysql读取的数据。由于有的列在数据库是int类型,而且有空值(Null),因此在从数据库抽取到df对象后,pandas自动将int转成float,比如10变成了10.0,15902912345变成了1.5902912345E10,Null变成了NaN。这种列由于存在NaN,因此不能用DataFrame.astype()方法转...原创 2018-12-20 00:39:18 · 9112 阅读 · 0 评论 -
Pandas数据比较——“==”的妙用
pandas 的优势,再大、再复杂的表,一个“==”即可实现比较,非常方便!In [40]: d1Out[40]: 0 1 2 3 4 s0 0.166063 0.643387 0.890301 0.960277 0.289727 year1 0.678300 0.90556...原创 2019-01-17 18:11:58 · 4093 阅读 · 2 评论 -
Windows10下配置大数据开发环境(2) - 安装HIVE
一 准备工作安装Hadoop 3.1.1安装JDK 1.8或更高版本Hadoop已经能正常启动,启动过程中无exception或error信息下载hive 3.1.0:http://mirror.bit.edu.cn/apache/hive/下载下来应该是tar包的形式:apache-hive-3.1.0-bin.tar.gz找一个较早的hive版本源码包,在其bin文件夹下必须含...原创 2019-01-14 11:10:55 · 4777 阅读 · 0 评论 -
Windows10下配置大数据开发环境(3) - 安装Spark,PySpark
一 预备条件下载安装scale:Scala 2.12.7https://www.scala-lang.org/download/all.html二 安装spark下载安装spark:http://spark.apache.org/downloads.html三 配置先配置系统环境变量安装用start-all.cmd启动hadoop,先确认/tmp/hive存在:D:\ha...原创 2019-01-14 11:17:09 · 845 阅读 · 0 评论