实验一:大数据同步技术datax的使用
目的:利用datax将.csv文件中的数据同步导入mysql中(乱码问题可通过输入命令 CHCP 65001解决)
1.Navicat里面建立数据表
2.仿照datax\job中的job.json进行修改,新建立job_yq.json文件
reader中修改输入源
index 对应数据表三个字段 0 1 2
3.修改输出源 用户名及密码
4.输出源中添加数据表对应字段
5.连接数据表修改表名
附上我的json文件可以参考修改
{"job": {"setting": {"speed": {"channel": 3}
},"content": [
{"reader": {"name": "txtfilereader","parameter": {"path":["D:/Projects/phython/pycharm/PythonEX/learn_six/疫情省.csv"],"encoding":"GBK","column": [
{"index":0,"type":"string"},
{"index":1,"type": "string"},
{"index":2,"type": "string"}
],"fieldDelimiter":","}
},"writer": {"name": "mysqlwriter","parameter": {"username":"root","password":"root","column": ["riqi","pro","que_num"],"preSql": ["truncate table yq_province"],"connection": [
{"jdbcUrl":"jdbc:mysql://localhost:3306/demo","table":["yq_province"]
}
]
}
}
}
]
}
}
View Code
到此配置好后直接运行命令: python datax json目录即可, 这里需要在datax/bin目录下运行此命令。
例如:python datax.py E:\xitong\major\datax\job\job_yq.json
易错点:这里路径一定要用/ 反斜杠会出错
实验二:大数据清洗技术kettle的使用
待更新
实验三:大数据日志采集技术Logstash
待更新
实验四:大数据实时采集技术Kafka
待更新
实验五:动态感知舆情热点大数据采集技术
待更新