hdfs上的csv文件导入mysql表_如何使用python脚本将hdfs上的csv文件导入mysql数据库

最新推荐文章于 2022-12-07 11:30:19 发布

婧在机器学习中

最新推荐文章于 2022-12-07 11:30:19 发布

阅读量419

点赞数

文章标签： hdfs上的csv文件导入mysql表

本文链接：https://blog.csdn.net/weixin_34019786/article/details/113286056

版权

我有一个用例，在聚合(使用map reduce)之后，将生成一个csv文件。现在，我想将这个驻留在hdfs上的csv文件直接导入mysql数据库。

这是我写的代码：-在#!/usr/bin/python

import subprocess

import sys

import csv

import MySQLdb

mydb = MySQLdb.connect(host='localhost',

user='root',

passwd='',

db='test')

cursor = mydb.cursor()

def main():

#csv_data = csv.reader(file(path/to/local/testcsv.csv))

csv_data = subprocess.Popen(["hadoop", "fs", "-cat", 'path/to/hdfs/testcsv.csv'], stdout=subprocess.PIPE)

#for row in csv_data

for row in csv_data.stdout:

print row

cursor.execute('INSERT INTO testcsv(names, \

classes, mark )' \

'VALUES("%s", "%s", "%s")',

row)

mydb.commit()

mydb.close()

if __name__ == "__main__":

main()

#close the connection to the database.

print "Done"

在测试csv.csv包含三个字段名、类和标记。我在mysql中创建了testcsv表，并尝试使用oozie工作流导入。当从本地文件系统而不是hdfs导入csv时，我的oozie工作流运行良好(在注释行中显示)。

运行此代码不会将数据导入mysql。我是不是犯了什么错误？

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

婧在机器学习中

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

python 利用pyspark读取HDFS中CSV文件的指定列列名重命名并保存回HDFS

gmHappy

07-28

2890

需求读取HDFS中CVS文件的指定列，并对列进行重命名，并保存回HDFS中原数据展示 movies.csv 操作后数据展示主： write.format()支持输出的格式有 JSON、parquet、JDBC、orc、csv、text等文件格式 save()定义保存的位置，当我们保存成功后可以在保存位置的目录下看到文件，但是这个文件并不是一个文件而是一个目录。不用担心，这是没错的，我们读取的时候，并不需要使用文件夹里面的part-xxxx文件，直接读取目录即可。代码 # -*- c

datax实现mysql数据同步

congge

02-04

6万+

datax 同步数据使用详解

参与评论您还未登录，请先登录后发表或查看评论

哇！用Python读取CVS文件竟然有5招，据说90%的人只会2招

cainiao_python的博客

08-17

424

Python目前是最火的语言了，无论是做开发，测试，数据分析，后端，还是办公自动化都可以用Python帮你轻松解决一些琐碎的。尤其是一些重复的工作，而在日常的工作中经常打交道的就是文件的...

python读取c盘中的csv文件-python – 从hdfs读取csv文件中的数据帧

weixin_37988176的博客

11-01

357

我正在使用pydoop从hdfs读取文件,当我使用时：import pydoop.hdfs as hdwith hd.open("/home/file.csv") as f:print f.read()它显示了stdout中的文件.有没有办法让我在这个文件中读取数据帧？我尝试过使用pandas的read_csv(“/ home / file.csv”),但它告诉我无法找到该文件...

hdfs上的csv文件导入mysql表_HDFS、Hive、MySQL、Sqoop之间的数据导入导出（强烈建议去看）...

weixin_35924166的博客

03-06

635

Hive几种数据导出方式https://www.iteblog.com/archives/955(强烈建议去看)把MySQL里的数据导入到HDFS1、使用MySQL工具手工导入把MySQL的导出数据导入到HDFS的最简单方法就是，使用命令行工具和MySQL语句。为了导出整个数据表或整个数据库的内容，MySQL提供了mysqldump工具。比如SELECT col1,col2 FORM TAB...

hdfs写入MySQL_用把数据从hdfs写入到mysql

weixin_42241168的博客

01-26

1097

sqoop是一个能把数据在关系型数据库和HDFS之间互相传输的工具。在这里，我写一下用java程序来实现sqoop把数据从HDFS写入到MYSQL。在接触sqoop之前，我自己写了一个传输类来实现数据从HDFS到MYSQL。这里简单说一下时间的思想: 1、在MYSQL中创建一个参数表A，用来记录要传输的表的表名B和字段。 2、HDFS上的数据的格式和MYSQL中参数表A中B表的字段的数量一...

05-29

本文将详细介绍如何使用DataX进行MySQL到MySQL的同步，以及MySQL与HDFS（Hadoop Distributed File System）之间的相互同步。 **一、MySQL到MySQL的数据同步** 1. **配置文件示例** 在DataX中，数据同步作业的配置...

将数据从HDFS导到mysql

最新发布

10-16

对于大数据量，文件可能非常大，可以考虑使用一些工具如Apache Pig、Hive、Spark SQL或直接用脚本（如Python或Shell）对文件进行预处理，如解析、转换格式为适合导入MySQL的结构。 3. **导入到MySQL**： - **使用...

大数据上课笔记之HDFS的Shell操作

Cisyamr的博客

11-25

1395

Shell在计算机科学中俗称“壳”，是提供给使用者使用界面的进行与系统交互的软件，通过接收用户输入的命令执行相应的操作，Shell分为图形界面Shell和命令行式Shell。文件系统（FS）Shell包含了各种的类Shell的命令，可以直接与Hadoop分布式文件系统以及其他文件系统进行交互。

spark-python从hdfs文本数据（美国历年出生人数）统计然后把结果数据写入mysql

chenyulancn的专栏

11-28

711

学习spark了一段时间需要把各个功能做个串联，实现个简单相对完整的例子，所以尝试使用spark读取 hdfs中的数据，进行处理后，把结果写入mysql数据。 #! /usr/bin/env python # This Python file uses the following encoding: utf-8 ''' Created on Nov 27, 2017 @author: root

python解析hdfs文件和实现方式

11-24

python解析hdfs文件内容生成本地文件、及相关插件包安装实现方式

python读取txt文件将数据导入mysql数据库

01-20

在测试的时候，需要造模拟数据，或者是将生产环境的数据导出到测试环境中去，本文记录通过python读取txt文件，并将数据导入mysql数据库 1、示例代码： import pymysql # 打开数据库连接 conn = pymysql.connect(host=localhost, port=3306, user=root, passwd=123456, db=test1) # 使用cursor()方法获取操作游标 cursor = conn.cursor() #通过open（）方法以只读的方式打开文件，编码格式为UTF-8 file = open(d:/test/test

解析csv数据导入mysql的方法

weixin_30633405的博客

01-10

109

mysql自己有个csv引擎，可以通过这个引擎来实现将csv中的数据导入到mysql数据库中，并且速度比通过php或是python写的批处理程序快的多。具体的实现代码示例：代码如下: load data infile '/tmp/file.csv' into table _tablename (set character utf8) fields terminated by ','en...

hdfs数据导入mysql_使用MapReduce将HDFS数据导入Mysql

weixin_28585773的博客

01-27

329

package com.zhen.mysqlToHDFS;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import java.sql.PreparedStatement;import java.sql.ResultSet;import java.sql.SQLException;impo...

用Python读取CSV文件的5种方式

热门推荐

qq_40907977的博客

08-17

11万+

典型的数据集stocks.csv：一个股票的数据集，其实就是常见的表格数据。有股票代码，价格，日期，时间，价格变动和成交量。这个数据集其实就是一个表格数据，有自己的头部和身体。第一招：简单的读取我们先来看一种简单读取方法，先用csv.reader()函数读取文件的句柄f生成一个csv的句柄，其实就是一个迭代器，我们看一下这个reader的源码：喂给reader一个可迭代对象或者是文件的object，然后返回一个可迭代对象。首先读取csv 文件，然后用csv.reader生成一个csv迭代器

python将数据存入mysql数据库中_python3 两种方法将数据存入mysql数据库

weixin_30696613的博客

01-19

2009

如何使用python将数据从hadoop保存到数据库

m0_67391270的博客

08-28

852

所以我在reducer.py文件中写了一些python代码,将数据直接写到MYSQL数据库,并尝试通过删除如下所示的输出路径来运行上述命令。现在毕竟我想做的是,当我运行上述命令时,我不想将输出数据存储在haddop默认创建的文本文件中,而是想将数据保存到MYSQL数据库中。>该命令用于运行hadoop以将数据保存到数据库中,因为当我在hadoop命令中删除了输出文件夹路径时,它显示了一个错误.)中编写将数据写入数据库的代码。现在,我要做的就是读取上述路径中的文本文件,并尽快将数据保存到mysql数据库中..

python将数据存入数据库_如何使用python将数据从hadoop保存到数据库

weixin_39996234的博客

11-26

358

我正在使用hadoop处理xml文件,所以我已经在python中编写了mapper文件,reducer文件.假设需要处理的输入是test.xmlmapper.py文件import sysimport cStringIOimport xml.etree.ElementTree as xmlif __name__ == '__main__':buff = Noneintext = Falsefor l...

读取HDFS数据写入MySQL_大数据培训

zjjcchina的博客

12-07

852

读取HDFS数据写入MySQL1）将上个案例上传的文件改名[atguigu@hadoop102 datax]$ hadoop fs -mv /student.txt* /student.txt2）查看官方模板[atguigu@hadoop102 datax]$ python bin/datax.py -r hdfsreader -w mysqlwriter{ “job”: { “content”: [ { “reader”: {

python连接hdfs和hive，将hdfs中的csv文件导入hive的数据表中

04-04

可以使用PyHive库连接Hive和HDFS，并使用HiveQL语句将HDFS中的CSV文件导入Hive数据表中。下面是一个示例代码： ```python from pyhive import hive import pandas as pd # 连接Hive conn = hive.connect(host='localhost', port=10000, username='username') # 创建Hive表 create_table_qry = """ CREATE TABLE IF NOT EXISTS my_table ( col1 STRING, col2 INT, col3 FLOAT ) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n' STORED AS TEXTFILE """ with conn.cursor() as cur: cur.execute(create_table_qry) # 从HDFS中导入数据到Hive表 load_data_qry = """ LOAD DATA INPATH '/path/to/csv/file.csv' INTO TABLE my_table """ with conn.cursor() as cur: cur.execute(load_data_qry) # 查询导入的数据 select_qry = """ SELECT * FROM my_table """ df = pd.read_sql(select_qry, conn) print(df.head()) # 关闭连接 conn.close() ``` 其中，需要将`host`和`username`参数替换为实际的Hive主机名和用户名，将`/path/to/csv/file.csv`替换为实际的HDFS中CSV文件的路径。在上述代码中，使用Pandas库读取Hive数据表中的数据并打印前5行。