将.dat文件导入数据库

  *最近在搞文本分类,就是把一批文章分成[军事]、[娱乐]、[政治]等等。

但是这个先需要一些样本进行训练,感觉文本分类和"按图索骥"差不多,训练的文章样本就是"图",真正分类的就是“骥”。

去搜狗实验室找到了一些样本进行下载,先下载了一些迷你版的样本数据,看着还不错,就下载吧,压缩包就不到700M,解压後,1G+。

特别是看到文件后缀是.dat,当场是懵逼的。

  **以前用过sqlLite,网上搜了下,答案是sqlLite是可以打开.dat的文件,下载了一个可视化的sqlLite来打开.dat文件,报错...
  ***如果网上说MS SQL可以打开.dat文件,但是MS SQL打开.dat文件报错的话,我可能还较真的继续下去找找别的原因,但是sqlLite报错,

就算了,不继续这条路了,毕竟自己也不怎么用过sqlLite,,,终于又看到了一个解决方案,说可以将.dat文件导入到MySQL数据库中,

  ****但是需要Toad for MySQL软件的帮助,这个软件貌似貌似不太好找,只好去官网下载了,好需要注册账号才能有权限下载,吧啦吧啦,下载好了,

这个软件的图标是个青蛙,寓意是王子嘛,不过还挺可爱的。我还去MySQL中建了一个数据库,又建了一个账号。然后连接。

  *****然后去看下.dat中的数据样式,我下载的样式是:

<doc>
<url>http://gongyi.sohu.com/20120706/n347457739.shtml</url>
<docno>98590b972ad2f0ea-34913306c0bb3300</docno>
<contenttitle>深圳地铁将设立VIP头等车厢 买双倍票可享坐票</contenttitle>
<content>南都讯 记者刘凡 周昌和 任笑一 继推出日票后,深圳今后将设地铁VIP头等车厢,设坐票制。昨日,《南都METRO》创刊仪式暨2012年深港地铁圈高峰论坛上透露,在未来的11号线上将增加特色服务,满足不同消费层次的乘客的不同需求,如特设行李架的车厢和买双倍票可有座位坐的VIP车厢等。论坛上,深圳市政府副秘书长、轨道交通建设办公室主任赵鹏林透露,地铁未来的方向将分等级,满足不同层次的人的需求,提供不同层次的有针对的服务。其中包括一些档次稍微高一些的服务。“我们要让公共交通也能满足档次稍高一些的服务”。比如,尝试有座位的地铁票服务。尤其是一些远道而来的乘客,通过提供坐票服务,让乘坐地铁也能享受到非常舒适的体验。他说,这种坐票的服务有望在地铁3期上实行,将加挂2节车厢以实施花钱可买座位的服务。“我们希望轨道交通和家里开的车一样,分很多种。”赵鹏林说,比如有些地铁是“观光线”,不仅沿途的风光非常好,还能凭一张票无数次上下,如同旅游时提供的“通票服务”。再比如,设立可以放大件行李的车厢,今后通过设专门可放大件行李的座位,避免像现在放行李不太方便的现象。“未来地铁初步不仅在干线上铺设,还会在支线、城际线上去建设。”“觉得如果车费不太贵的话,还是愿意考虑的。”昨日市民黄小姐表示,尤其是从老街到机场这一段,老街站每次上下客都很多人,而如果赶上上下班高峰期,特别拥挤,要一路从老街站站到机场,40、50分钟还是挺吃力的,宁愿多花点钱也能稍微舒适一点。但是白领林先生则表示,自己每天上下班都要坐地铁,出双倍车资买坐票费用有点高。</content>
</doc>
<doc>
<url>http://gongyi.sohu.com/20120724/n348878190.shtml</url>
<docno>5fa7926d2cd2f0ea-34913306c0bb3300</docno>
<contenttitle>爸爸为女儿百万建幼儿园 消防设施3年仍不过关</contenttitle>
<content></content>
</doc>
<doc>
<url>http://gongyi.sohu.com/s2008/sourceoflife/</url>
<docno>f2467af22cd2f0ea-34913306c0bb3300</docno>
<contenttitle>中国西部是地球上主要干旱带之一,妇女是当地劳动力...</contenttitle>
<content>同心县地处宁夏中部干旱带的核心区, 冬寒长,春暖迟,夏热短,秋凉早,干旱少雨,蒸发强烈,风大沙多。主要自然灾害有沙尘暴、干热风、霜冻、冰雹等,其中以干旱危害最为严重。由于生态环境的极度恶劣,导致农村经济发展缓慢,人民群众生产、生活水平低下,靠天吃饭的被动局面依然存在,同心,又是国家级老、少、边、穷县之一…[详细]</content>
</doc>
//还有很多...

看下这些数据,每条数据有用标签<doc></doc>包着,每个doc标签有4个标签,所以我建了有5列的一个表,test

每列都是varchar,长度也尽量给的大一点,别万一导入的时候报错了;

  ******下面需要一个语句来进行插入到MySQL中:

LOAD DATA LOCAL INFILE 'E:\\b.dat'#E:\\b.dat 为.dat文件在你电脑上的位置
INTO TABLE test#表名
FIELDS TERMINATED BY '\n'#(每条数据中)每一列的隔开的标签
LINES TERMINATED BY '</doc>\n<doc>'#每条数据的隔开的标签
(c1, c2, c3,c4,c5); #导入数据的对应列

然后点下图↓中的运行SQL语句的按钮,

 

只要没有报错,就是对了,再去看看MySQL中test数据库中的test表,

果然有数据,但是中文乱码!!!

在MySQL中执行sql:

SHOW VARIABLES LIKE 'character_set_%';
SHOW VARIABLES LIKE 'collation_%';

我这里显示的这个就是不乱码的,怎么更改这个值?传送走你

如果是MYSQL数据库编码不正确: 可以在MYSQL执行如下命令: 
ALTER DATABASE `test` DEFAULT CHARACTER SET gb2312 COLLATE gb2312_chinese_ci
 修改MYSQL表的编码:
ALTER TABLE `test` DEFAULT CHARACTER SET gb2312 COLLATE gb2312_chinese_ci
 修改字段的编码:
ALTER TABLE `test` CHANGE `c1`  VARCHAR(4000) CHARACTER SET gb2312 COLLATE gb2312_chinese_ci 

到这里就可以了,当然导入的时候,数据还不太完美,但是这就够我用了。。。GG

二〇一六年十一月二十一日 21:38:21

 

### 回答1: ArcGIS是一款专业的地理信息系统软件,可以用于处理、分析和可视化地理数据。导入dat文件是ArcGIS中的一项常见操作,下面是详细的步骤: 1. 打开ArcGIS软件,并在左上角的菜单栏中选择“文件”。 2. 单击“打开”按钮,弹出一个对话框。 3. 在对话框中,浏览到dat文件所在的文件夹,并选择要导入dat文件。 4. 单击“打开”按钮,开始导入dat文件。 5. 导入文件的过程可能需要一些时间,具体取决于文件的大小和计算机的性能。 6. 导入完成后,ArcGIS会在地图窗口中显示dat文件的内容。 7. 若要将dat文件内容转换为地理要素,可以右键单击该文件,在弹出的菜单中选择“转换为要素”选项。 8. 根据需要,在“转换为要素”对话框中设置要素的名称、坐标系、字段映射等参数。 9. 单击“确定”按钮,开始转换过程。 10. 转换完成后,可以在地图窗口中查看和编辑导入的地理要素。 总之,ArcGIS可以方便地导入dat文件,并进行进一步的地理数据处理和分析。 ### 回答2: ArcGIS是一款强大的地理信息系统(GIS)软件,可以用于数据处理、地图制作和空间分析。如果要把.dat文件导入ArcGIS,按照以下步骤进行操作。 首先,确保你已经打开了ArcGIS软件并创建了一个工作空间。在主菜单中选择“文件”>“新建空白地图”或使用快捷键Ctrl + N。这将创建一个空的地图文档(.mxd)。 接下来,点击工具栏上的“添加数据”按钮,或者使用快捷键Ctrl + D。在弹出的对话框中,浏览到.dat文件所在的文件夹,并选择该文件。 ArcGIS将会提示你选择该文件文件类型。如果.dat文件是一种表格文件,选择“表格”选项;如果.dat文件是一个栅格文件,选择“栅格”选项;如果.dat文件是一个特定的GIS数据格式,选择对应的数据类型选项。然后点击“添加”按钮。 导入后,.dat文件将会在ArcGIS的“目录”窗口中显示。你可以将其拖放到地图窗口中,以显示和分析其中的数据。 如果导入文件需要进行格式转换或数据处理,你可以使用ArcGIS提供的工具和功能来完成。例如,你可以使用查询工具来筛选和分析数据,使用符号化工具来为数据添加样式和颜色,使用编辑工具来编辑和更新数据等等。 最后,根据你的需求和目的,你可以使用ArcGIS的其他功能和工具来进一步分析、可视化和制作地图。无论你是专业的GIS分析师、地图制作者,还是对地理数据感兴趣的普通用户,ArcGIS都提供了丰富的功能和强大的分析能力,帮助你处理和利用.dat文件中的数据。 ### 回答3: ArcGIS可以通过几种方法将DAT文件导入到软件中。 首先,可以使用ArcGIS中的工具“导入文件”,该工具可以将DAT文件直接导入到地理数据库中。在ArcGIS的菜单栏中选择“文件”> “导入文件”,然后选择要导入DAT文件。在导入过程中,可以选择将DAT文件导入到现有的地理数据库中,或者创建新的地理数据库。然后,可以选择要导入的数据类型,并设置属性和字段映射。最后,单击“导入”按钮,ArcGIS将开始将DAT文件导入到地理数据库中。 第二种方法是使用ArcGIS提供的工具箱中的工具进行导入。这些工具箱包含了各种用于数据导入的工具,例如“导入CAD文件工具”、“导入Excel工具”等。可以使用这些工具箱中的工具将DAT文件导入到地理数据库中。打开工具箱,然后找到并选择合适的工具,将DAT文件导入。 最后,还可以使用ArcGIS的Python编程来导入DAT文件。ArcGIS提供了Python模块,可以使用Python脚本编写数据导入的代码。可以使用Python代码读取DAT文件,并使用ArcGIS提供的API将数据导入到地理数据库中。 总之,ArcGIS提供了多种方法来导入DAT文件。无论是使用工具、工具箱还是编程,都可以很轻松地将DAT文件导入到ArcGIS中进行进一步的分析和处理。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值