Python Vs MATLAB

最新推荐文章于 2022-12-21 09:00:00 发布

质数不孤独

最新推荐文章于 2022-12-21 09:00:00 发布

阅读量797

点赞数 3

分类专栏： Python 文章标签： matlab json c/c++

本文链接：https://blog.csdn.net/u011009574/article/details/84531712

版权

Python 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Python Vs MATLAB

——从一次数模美赛的亲身经历谈python在数学建模竞赛中的应用

说起数学建模中的编程软件，大部分人都会想到Matlab。Matlab应该是史上功能最强大的一门编程与数学仿真软件，许多复杂的数学问题对它来说都so easy。有经验的都明白，做数模少了MATLAB是万万不能的，什么画个图像啊，搞个拟合分析矩阵计算啊啥的没了它很难玩得转，但MATLAB也不是万能的，至少，在文本数据处理方面，我认为它远不如python，这个文本数据挖掘领域的神器。

说实话，电脑安装Matlab有一年多了，但我至今还是个MATLAB菜鸟，原因一是不太喜欢Matlab的语法，二是日常生活中几乎用不到，三是不能理解复杂的矩阵运算，更不懂啥神经网络之类的算法，所以只能把它当画图工具了。但是我也参加数模比赛，比如前两次参加比赛我用的是java，编程效率不是一般的低，以至于我参加比赛时80%的时间都用在了写程序上，真心浪费了很多时间。不过这次改用python后，效率有所提高。

废话不多讲了，现在就让我们见识一下如何用Python处理数学建模问题。

一、Matlab中引入数据

在介绍Python之前，我们先来看看我们在MATLAB中是怎么引入数据的：

首先，如果是用空格，逗号，等分隔符隔开的很有规律的数据文件，引入Matlab是很简单的，像我这种小白不看任何教程也能摸索出来，步骤很简单：

1、点击右上方workspace框中的Import data按钮

2、选择数据文件

3、选择数据间的分隔符—>next

4、finish

现在，workspace中多了一个名为data的矩阵，说明数据引入成功了。

不得不说这种数据引入方式是很赞的，大多数数据文件可以一键引入，很省事。然而这只是对于格式有规律的数据来说的，对于格式没规律的数据，直接import显然行不通了，需要自己写程序来搞定，比如这次美赛中我们遇到的Edros0列表：

这组文档有18000行，记录的是著名学者Edros（很NB的）的学术合作关系网络，其中开头没有空格行且全大写的人名与Edros有直接合作的，即所谓的Edros数为1学者，共511位，比如AGOH, TAKASHI；列在他们的后面的则是与这511位学者有合作关系的学者，他们大多数与Edros没有直接合作关系，姓名只有首字母大写。当然，那511位学者之间也有互相合作，比如AGOH, TAKASHI与GRANVILLE, ANDREW JAMES，我们的任务就是，找出所有这511位之间的合作关系，得到511个节点的关系网络。

显然，对于这个问题，直接import行不通，需要自己写程序进行简单的文本分析。但是，我个人认为用Matlab的程序处理这个文本一点也不轻松，看看Matlab的文件处理函数你就知道了：fopen、fsacnf。。。——和C语言没有区别啊（不是说C语言不好而是在比赛中太浪费时间了），而且结果保存为矩阵也不方便啊，所以我想到了用python处理这个文本。

二、python中的数据处理

Python没有matlab中import data这样给力的功能，但相比Matlab，Python中的文件操作简单太多了。举个例子，python中只需2句话：

Data = open（‘XXX’）
For each_line in data:
。。。

你就可以打开并遍历文件的每一行。再配合python灵活的字符串与数据操作方式，从文本中提取信息并不难，具体只要三步：

1、数据读取

用程序解决这个问题，无论用什么，第一步无疑都是文件的读取，所以我先替去除了着18000行文本，保存为data.txt，在同一目录下新建data_processer.py。然后：

Data = open（‘data.txt’）
For each_line in data:

遍历文本每一行。

2、节点获取

第二步，我们要找到这511位学者所在的行并获得结点。对此，我们先分析一下文本的特点，发现除了姓名全部大写外，这些都含有四位数的年份，于是，我们可以根据数字的个数来得到这些人名的所在行，对此我写了一个函数来获取字符串中的数字个数：

def num_count(s):
    num_count = len(filter(lambda x:x.isdigit(),s))
    return num_count

为了得到511个姓名，我们先把数字个数大于4的行根据空格分割成很多片段，记为flagments列表：

flagments = each_line.strip().split(' ')

再把年份之前的字符串都拼起来，就得到了姓名：

#找到年份对应字符串，并得到名字的函数
def find_name(flagments):
    index =  0
    for each in flagments:
        if  num_count(each) < 4:
            index+=1
        else:
            name = ''
            for i in range(index):
                if(cmp('',name) == -1):
                    name += ' '
                name += flagments[i]
            return name

首先，新建一个叫all_nodes的列表，来储存所有的节点。

all_nodes = []

然后，调用函数get_nodes得到所有节点：

def get_nodes:
    for each_line in data:
        #如果这一行中含有年份，那么提取节点名称
        if num_count(each_line) >= 4:
            #把字符串按空格分割
            flagments = each_line.strip().split(' ')
            #得到名字
            name = find_name(flagments)
            #添加新节点
            new_node = {'id':id,'line_index':line_index,'name':name,'in_link':[],'out_link':[],'in_link_node_count':0,'out_link_node_count':0}
            all_nodes.append(new_node)
            line_of_nodes.append(line_index)
            id+=1
        lines.append(each_line)
        line_index += 1#记录行号

这里，我把每个节点定义为一个字典，赋予了节点id编号、姓名name，同时新建了列表link来储存它连接的节点的id，用。另外，我还记录了每个节点的首行号，方便后面的工作。

下一步，就是得到节点间的连接关系了

3、得到节点间的连接关系

这步工作也很简单，刚才我们记录了每个节点所在行的行号，相邻行号之间的部分就是这个节点的合著者名单，把名单中的人与511个节点中的姓名一一对比，就可以得到它所连接的节点，代码如下：

#1 找到每个节点的区间，逐行匹配，找到其他的人就加一
for i in range(id):
    for j in range(line_of_nodes[i]+1,line_of_nodes[i+1]):
        for k in range(id):
            if cmp(all_nodes[k]['name']+'\n',lines[j])==0:
                all_nodes[i]['in_link'].append(k)
                all_nodes[i]['in_link_node_count'] += 1

OK，完成了以上几步工作，我们已经得到了构建网络所需的所有的信息——511个节点与每个节点连接信息，就可以得到关系网络了，根据all_nodes列表中的信息，配合pajek软件，我们得到这样一张网络图：

怎么样，是不是很有成就感，嘿嘿。

三、用Python处理JSON格式数据

在上面的例子中，我们借助Python处理文本成功构建了Edros网络，下面我们继续用Python构建另一个网络。顺便认识一下一种常见的数据格式——JSON格式。

题目的第四问，要求我们自己基于另一组数据建立另一个的网络，重新评估自己的算法。不得不说这一问不好做，因为在短时间内找到类似的数据真心很难，自己写爬虫爬数据我也不会。不过我的运气实在是太好，没费多大功夫就在数据堂网站上找到了一组名为“十三万条微博互粉记录”的数据。不是我自夸，这么合适的数据简直就像是为本题量身打造的啊。微博关注网络，和Edros网络如出一辙啊有木有，更巧的是节点个数——521个，和511个很相近有木有！！！

废话不多讲，就让我们先来看看这组数据的真面目。

这个4兆多的文档，我截取了一小部分，说实话，一看到这组数据我就笑了——这不就是python中的字典打印出来的格式吗！后来我查了资料，知道原来这种格式叫JSON格式，源于JavaScript。详见百度百科：

http://baike.baidu.com/link?url=IWjHSgBSGudp0w6sKwrRRbiIIL2tXL4wfzu-uTC052mzvA4BKdHO2BoYRLajAFc0

这组数据中同样用字典来定义节点，其中“node”为节点对应的微博号码，“count”为该用户的关注数，“biFriends”为用户关注的用户id列表。

由于本来就是Python默认的数据输出格式，所以使用Python来处理这组数据，出奇的简单，直接调用python内置的JSON库函数，只要几行代码：

data = open('相互关注.txt')
for each_line in data:
    sss = json.loads(each_line)
    all_infos.append(sss)
    sss['id'] = id
    sss['links'] = []
    id += 1

这样就把文档直接存为字典列表了。

用同样的方法，我们可以得到521个节点的微博关注网络，画出来是这个样：

额，乌压压的一片TOT。。。好吧，我承认，数据确实太多，以至于我自己写的这个小程序要跑整整5分钟！

我抽取的其中连接数最多的30个节点，图好看多了：

从图中可能看不出来，但是从统计数据中我们可以清楚地看到，id为1197161814的用户与所有其他520的节点用户都有连接，显然，这是这13万条数据的爬行起点，1197161814节点扮演的角色和Edros一样，所有的关系网络都是从他辐射出来的。

当然，除了引入这些数据，python程序进行简单的数据计算也so easy，和C语言啥的差不多，鄙人对数学模型方面也只能算个菜鸟，建模没有太多亮点，在此我就不多介绍了，所有的代码和数据文件都打包上传了，有兴趣的可以参考一下，希望能给大家一起启发，也欢迎各位提出建议，我们共同进步！

质数不孤独

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
Python Vs MATLAB

Python Vs MATLAB ——从一次数模美赛的亲身经历谈python在数学建模竞赛中的应用说起数学建模中的编程软件，大部分人都会想到Matlab。Matlab应该是史上功能最强大的一门编程与数学仿真软件，许多复杂的数学问题对它来说都so easy。有经验的都明白，做数模少了MATLAB是万万不能的，什么画个图像啊，搞个拟合分析矩阵计算啊啥的没了它很难玩得转，但MATLA...
复制链接

扫一扫