[跪求大神]大数据中的文本数据挖掘问题,非结构化转换问题

现有一个数据包,里面有大量txt文件,txt文件里存储的是一家餐厅的基本信息,以及客户对其评价,包括的字段如下:

id:店铺id

name:店铺名

name_all:店铺全称

star:平均评价分数

address:地址

tags:标签

comment:一条评论

uid:用户id

user:用户名称

level:评分

content:评价内容

cut:分词后的评价字符串

-----------------------------------------------

样例数据:

<id>516112</id>

<name>麻辣诱惑(君太店)</name>

<name_all>麻辣诱惑</name_all>

<star>40</star>

<address>西城区西单北大街133号君太百货7楼</address>

<tags>川菜 西单</tags>

<comment>

<uid>7068723</uid>

<user>yanglynn</user>

<level>4</level>

<content>人太多,太多。只有水煮鱼我还能喜欢吃,别的都觉得也就是吃吃。味道还是不错的,但是没好吃的人那么多的程度吧。呵呵</content>

<cut>太多/太多/只有/有水/水煮/水煮鱼/我还/还能/喜欢/吃/别的/都/觉得/也就/就是/吃吃/味道/还是/是不/不错/不错的/没/好吃/吃的/的人/那么/那么多/多的/程度/呵呵</cut>

</comment>

现在的目的有2个:(1)需要把这些非结构化数据尽量转化成可分析的结构化数据(2)需要对评论内容content进行数据挖掘,比如能挖出客户对餐厅环境、菜品、服务态度等方面的评价。

对数据挖掘,非结构数据转换等方面感兴趣的,或者熟悉此类操作的大神们,跪求帮助啊!!!!!!希望能提供一点点解决思路,或者是所需要的软件硬件技术,也可以是部分代码,有多少帮助都可以!!!!经济统计学要迈入大数据的行列,门槛很高么??小白我决定试一试,求各路大神支招,跪谢!!!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值